Biais induits par les données manquantes et le faible effectif

Bonjour, je me permets de poser une autre question un peu bête mais les statistiques ne sont vraiment pas mon point fort.
J’ai un peu de mal à déterminer quels sont les biais induits par les données manquantes.

j’ai inclus 26 patients pour décrire les caractéristiques cliniques et thérapeutiques de la population traitée par rtms au chu, suite à la mise en place de l’activité
mais j’ai réalisé l’analyse de l’efficacité du ttt sur 15 de ses patients car : 8 patients avec données manquantes sur les échelles d’évaluation à t0 ou en fin de ttt et 3 arrêts de ttt du fait d’EI
à cause des données manquantes, j’ai aussi du baser l’évaluation de l’efficacité du ttt sur les résultats d’une échelle d’auto-évaluation (l’hétéro-évaluation censée être faite par le psychiatre ayant d’avantage de données manquantes).

Je n’ai pas bien compris si cela induit un biais de sélection (car je retire de l’analyse d’efficacité les patients avec données manquantes potentiellement de façon non aléatoire?) et en particulier est ce que c’est un biais d’attrition ? (mais mes patients ne sont pas perdus de vue c’est juste qu’ils n’ont pas eu d’échelle d’évaluation et c’est une étude selon un schéma avant après). ou bien comme le patient est son propre contrôle cela ne créé pas vraiment de biais mais seulement une estimation imprécise de l’efficacité du ttt à cause de fluctuations d’échantillonnage et on ne peut pas généraliser aux 26 patients ? (sachant que je n’ai pas présenté d’intervalle de confiance car j’ai supposé une distribution non normale de mes variables)

Est ce que j’ai aussi le droit de dire qu’un biais de mesure a été induit à cause des données manquantes car elles m’ont obligé à évaluer le résultat de l’efficacité sur une échelle d’auto-évaluation ? mais est ce que le design avant après fait que cela ne crée pas de biais mais juste une estimation imprécise ? (sachant que cette échelle est malgré tout validée)

Et j’avais une autre question concernant le fait que mon effectif est faible. Le problème étant que j’ai une amélioration statistiquement significative au test des rangs signés mais pas significative en clinique (seulement 2 patients répondeurs sur l’échelle de dépression). Est ce que j’ai le droit de dire que le petit effectif a engendré une perte de puissance statistique qui a pu faire en sorte que nous n’avons pas observé d’effet cliniquement significatif ? (ou est ce que le fait qu’il y ai une significativité statistique ne permet pas de dire ça et irait plutôt dans le sens que le ttt a peu d’effets cliniquement pertinent ?) ou est ce qu’on n’observe pas d’effet à cause de fluctuations d’échantillonnages liés au faible effectif ?

Désolée si mes questions sont un peu bêtes. Merci par avance pour vos retours.
Bonne journée

Bonjour,

Rassurez-vous, il n’y a pas de question bête :slight_smile:

Exclure 8 de vos 26 patients pour données manquantes peut en effet être à l’origine d’un biais majeur. Comme vous l’avez compris, cela va dépendre du caractère aléatoire ou non de ces valeurs manquantes. Vous signalez par exemple que certaines valeurs sont manquantes en raison de sortie d’étude (arrêt du traitement). Dans ce cas vos analyses ne prendront pas en compte ces sujets et pourraient par exemple décrire une évolution faussement positive (puisque exclusion des sujets avec effets secondaires). Cela peut donc constituer un biais de sélection.
Mieux vaut prévoir ce scénario dès le début et envisager une méthodologie adaptée comme une étude de survie.

Vous pouvez également parler de biais d’attrition puisque vous excluez bien de vos analyse certains sujets qui ont été initialement inclus.

Un biais de mesure implique que les données recueillies sont biaisées (différentes de la réalité). En considérant que la méthode de recueil utilisée (hétéro-évaluation) est imparfaite alors en effet vous pouvez parler de biais de mesure. Vous pouvez discuter du biais et relativiser son importance en expliquant la validité reconnue de cette méthode de 2e choix (idéalement : citez une source mettant en évidence la différence de fiabilité entre ces 2 méthodes). La notion de design avant/après n’efface pas la faiblesse de la méthode de mesure. Comparer 2 mesures biaisées vous donnera un résultat également biaisé.

Concernant la significativité : si votre p-value est élevée, vous pouvez parfois faire l’hypothèse qu’un plus gros effectif (augmenter la puissance) permettrait d’obtenir un résultat significatif sur le plan statistique. Avec plus de sujets vous pourriez peut-être affirmer avec plus de certitude le résultat obtenu sur le plan clinique.
Pour ce qui est de l’aspect clinique cela ne fonctionne pas de la même façon : si votre échantillon est représentatif de la population cible, vous ne devriez pas trouver de différence avec un plus gros échantillon. Il peut cependant y avoir 2 raisons où une autre étude donnerait des résultats distincts :

  • votre échantillon n’est pas représentatif du fait de votre méthode = avec une méthode de sélection plus robuste vous obtiendriez des résultats différents sur le plan clinique
  • votre échantillon n’est pas représentatif du fait des fluctuations d’échantillonnage = du fait du simple hasard, votre échantillon n’est pas représentatif. Dans ce cas augmenter la taille de l’échantillon peut en effet aider car le risque de fluctuation diminue lorsque l’effectif augmente

Bonne journée !

Merci infiniment pour votre réponse précise.

Bonjour, j’avais une autre question concernant le biais de mesure lié à l’utilisation de l’échelle de Beck. C’est une échelle qu’on peut découper en plusieurs sous-scores : affectif, cognitif et somatique. J’ai une population qui présente en plus de sa dépression de nombreuses comorbidités anxieuses, somatiques, douloureuses chroniques.
Je suspecte que ces comorbidités ont entrainé une inflation des scores à l’échelle de beck. J’ai fait quelques tests de concordance pour les patients qui avait eu une beck et une hétéro-évaluation (madrs, hdrs). Dans ma population j’avais un Kappa de cohen pondéré qui indiquait une concordance faible (0,18) entre la madrs et la beck (pour n=7) et une discordance (-0,07) entre la beck et la hdrs (n=11) pour l’évaluation de la sévérité initiale. La beck surestimait dans la majorité des cas la sévérité de la dépression. De plus, elle peut ne pas mesurer uniquement la dépression chez des patients avec comorbidités. Le score peut être le reflet de l’expression de ces comorbidités plus que de la dépression.
Après quand je refais un test de concordance entre les échelles pour la capacité à évaluer la réponse au ttt, je trouve des résultats contradictoires. Si je fais un K sur des variables nominales : réponse / absence de réponse, j’ai une concordance à 0 pour la madrs et la beck et à 0,55 pour la beck et la hdrs. Si je fais un K pondéré avec des variables ordinales : réponse/réponse partielle/pas de réponse/aggravation, j’ai un accord de 0,64 pour la madrs et la beck (n=4) et de 0,17 pour la beck et la hdrs (n=5) ce que je ne comprends pas trop.

Ma question est donc de savoir si l’impact des comorbidités sur l’inflation du score à la beck est à considérer comme un biais de mesure (erreur systématique qui fait qu’on surestime la sévérité de la dépression et qui fait que la non amélioration du score en fin de ttt peut être lié au fait que les comorbidités surestiment le score ? Ou est ce que c’est à considérer comme un biais de confusion (les comorbidités étant considéré comme un facteur de confusion pouvant faire sous estimer l’efficacité de la rtms ?)

Est ce que les tests de concordance sont exploitables du fait du faible effectif ? Ou est ce qu’il vaut mieux ne pas les inclure ? Par ailleurs je vois qu’une p valeur est fournie avec le résultat de kappa de cohen (elle est > 0,05 pour tous mes K), je ne suis pas sûre d’avoir compris comment l’interpréter.

Merci par avance pour votre retour.
Bonne journée

Bonjour,
Si l’on part de l’hypothèse que les comorbidités sont à l’origine d’un Beck surévalué, il s’agirait d’un phénomène non systématique puisqu’il dépend directement du terrain de chaque sujet.

Je pense que le biais de confusion comme le biais de mesure peuvent se justifier ici :

  • les comorbidités ont affecté votre score de Beck, ce qui le rend peu fiable dans la mesure de la dépression → biais de mesure
  • le lien entre la prise en charge et l’amélioration de la dépression est perturbé par un facteur tierce (les comorbidités) → biais de confusion

Vos statistiques de concordances sont des éléments descriptifs avant tout (ce ne sont pas des tests sauf à calculer une p-value associée), ils demeurent à mon sens intéressants même à faible effectif. Les p-values sont de mon point de vue sans intérêt pour ces valeurs. Pour un Kappa, la p-value correspond à une comparaison du Kappa à la valeur 0. Un Kappa légèrement supérieur à 0 peut être significatif.
A la place, un intervalle de confiance peut être plus intéressant. Ex :

  • K = 0.70 [0.72 ; 0.68]
  • K = 0.70 [0.95 ; 0.45]
    → le 1er résultat semble bien plus robuste que le second

Merci pour votre retour.
Y a t-il un moyen de fournir un intervalle de confiance dans le cas d’une distribution non normale ?
Pour le biais de confusion du aux comorbidités, est ce qu’il est « annulé » par le fait qu’on utilise un schéma avant/après sur le même sujet ?

Tout à fait, il est possible de calculer ces intervalles de confiance via la méthode bootstrap, cette méthode ne nécessite pas une distribution normale de vos valeurs. Je n’ai cependant pas connaissance de logiciel autres que SAS/R qui propose ces calculs (mais il doit y en avoir).

Je ne connais pas assez le score de Beck pour pouvoir répondre avec certitude à votre 2e question. Mais en supposant que les comorbidités sont fixes dans le temps et que le score qui leur est associé l’est aussi, en calculant les deltas de score on peut supposer que les « comorbidités vont se soustraire » et faire apparaitre un delta qui traduira l’évolution de la dépression.

Bonjour, est ce que le calcul via la méthode boostrap que vous mentionnez correspond à la même chose que la formule qu’on retrouve sur internet et utilisée par le logiciel jamovi qui utilise la loi t de student ? si j’ai bien compris ils disent qu’il faut diviser l’écart type par la racine carrée de l’effectif et multiplier le résultat par la valeur correspondant à notre effectif - 1ddl dans la table de student. La moyenne - le résultat donne la borne inférieure et la moyenne + le résultat la bonne supérieure. (mais si c’est ça je n’ai pas trop compris comment on pouvait avoir le droit de le faire parce que si j’ai une distribution non normale et pas forcément symétrique je calcule un intervalle de confiance à partir d’une moyenne faussée et qui est donc probablement faussé aussi et je ne comprends pas pourquoi ma distribution devrait obligatoirement suivre une loi de student).

Non, ce que vous décrivez correspond au contraire à l’approche paramétrique (distribution normale).
A l’inverse le bootstrap permet de calculer un intervalle de confiance indépendamment de la distribution (non paramétrique).

Voici comment fonctionne le bootstrap :

  1. Échantillonnage : commencez par sélectionner un échantillon d’une taille égale à l’échantillon d’origine, mais en tirant aléatoirement les observations avec remplacement. Cela signifie qu’une même observation peut être sélectionnée plusieurs fois, tandis que d’autres peuvent ne pas être sélectionnées du tout.
  2. Répétition : répétez le processus d’échantillonnage bootstrap un grand nombre de fois (généralement des milliers de fois). À chaque itération, vous obtenez un nouvel échantillon bootstrap.
  3. Estimation des propriétés statistiques : utilisez ces échantillons bootstrap pour estimer les propriétés statistiques de l’échantillon d’origine. Dans votre situation cela implique de calculer le coefficient Kappa pour chaque échantillon.
  4. Construction de la distribution : Créez un histogramme ou une distribution des valeurs des statistiques (ici Kappa) obtenues à partir des échantillons bootstrap.
  5. Détermination des bornes de l’intervalle de confiance : Pour obtenir un intervalle de confiance à 95%, vous devez déterminer les valeurs de la statistique (kappa) qui délimitent les 2,5% inférieurs et supérieurs de la distribution bootstrap.