Données manquantes et méthode de gestion par suppression

19V · Octobre 12, 2023, 12:17

Bonjour j’aurais encore une petite question concernant cette fois-ci les données manquantes.

Mes questions sont les suivantes : existe t-il un cut off consensuel au delà duquel si l’on a plus de x% de valeurs manquantes, il n’est pas recommandé d’analyser les données ? Quelle est la différence entre une méthode de délétion listwise et pairwise ? (je n’ai pas compris à quoi cela correspondait en pratique, et du coup je n’arrive pas à déterminer dans quel cas je me situe). Y a t-il des astuces pour déterminer si nos données manquantes ne sont pas liées au hasard ?

Dans mon étude je décrivais les modalités d’utilisation de la rtms incluant les 26 premiers patients incidents. Le fait de ne pas exclure les sujets avec données manquantes apporte des informations utiles pour l’amélioration de la pratique mais complique la description / évaluation de l’efficacité du traitement. Bien sûr comme vous l’avez précisé l’absence de groupe contrôle ne permet pas de dire si les améliorations observées sont liées à la rtms ou à des facteurs confondants, mais je trouvais qu’il était intéressant de donner un aperçu des taux de réponses obtenus (car on avait un profil de patients avec de nombreux facteurs de risque de résistance thérapeutique; le taux de réponse très faible observé n’est donc pas étonnant mais il est tout de même très très largement inférieur à ce qui est observé dans la littérature).
Le taux d’évaluations manquantes avant traitement et en fin de cure est de 34,7%. Ce qui fait que je n’ai analysé l’efficacité du traitement que pour 15 des 26 patients inclus (-3 patients ayant arrêté la cure du fait d’effets indésirables). Est ce une erreur d’avoir fait cette analyse compte tenu du taux élevé que cela représente ? Et d’avoir une méthode de gestion par analyse des cas complets ? (je l’ai choisi car ça me semblait plus honnête qu’une méthode d’imputation, que mon étude était à visée descriptive et que ça me semblait compliqué à mon niveau de savoir faire une méthode d’imputation). Mais j’ai vu qu’il était inexact de le faire si les données manquantes n’étaient pas liées au hasard. Comment peut-on savoir si ces données manquantes sont liées ou non au hasard ? (dans mon cas les données manquantes concernaient majoritairement les échelles psychométriques, notamment celles que le psychiatre était censées remplir à différents temps du suivi du patient. Mais je n’ai pas de moyen de savoir si cela est du à un oubli / manque de temps ou si cela est lié à l’état clinique du patient : peut être allait-il mieux et le psychiatre n’a pas jugé bon de remplir l’échelle, ce qui ressort de façon la plus flagrante c’est que les échelles sont bien passées pendant la cure (mais pas pour le traitement d’entretien) pour les 10 premiers patients pris en charge par le chu, mais qu’après elles tendent à être d’avantage manquantes). Je me suis contentée de présenter dans un tableau le pourcentage de chaque évaluation psychométrique effectivement réalisée aux 6 temps d’évaluations (en précisant pour chaque temps l’effectif de patients poursuivant encore le traitement). Est ce qu’il existerait un moyen graphique permettant de présenter les données manquantes pour les principales échelles, en fonction du temps et de certaines autres variables (comme l’inclusion dans un autre protocole, la venue ou non à la consultation, l’année de traitement) ? ou est ce que cela serait trop compliqué vu le nombre de variables et il vaut mieux décrire par écrit les situations dans lesquelles les données étaient manquantes ? Est ce une erreur d’aborder une interprétation de l’efficacité du traitement (en terme de taux de réponse) dans la discussion compte tenu de tous les biais que cela implique ?

Merci par avance pour vos retours et votre aide précieuse

DrPasco · Octobre 20, 2023, 2:55

Bonjour,

Pas de cutoff absolu non, cela dépendra beaucoup du contexte et des raisons ayant mené à ces valeurs manquantes (caractère aléatoire ou non notamment).

Une déletion listwise supprime un sujet de toute l’analyse dès lors qu’il présente une valeur manquante parmi les variables d’intérêt.
Une déletion pariwise conserve le sujet mais l’exclura au cas par cas des analyses.

Dans votre situation (comparaison avant/après) la délétion listwise peut vous éviter un piège classique. Imaginons que vous souhaitiez comparer l’EVA moyenne de vos sujets à T0 et celle à T1 sur ces 3 sujets :

sujet	T0	T1
[1	5	5
2	0	Manquant
3	Manquant	10

Moyenne à T0 = (5+0)/2 = 2,5
Moyenne à T1 = (5+10)/2 = 7,5
→ Soit une augmentation moyenne de 5 points d’EVA.
Cette conclusion n’a absolument aucun sens car il est impossible de déduire l’évolution d’EVA pour les sujets 2 et 3.

En appliquant une déletion listwise, seul le sujet 1 serait conservé et on arriverait à la conclusion que l’EVA ne semble pas être modifier entre T0 et T1.

De même, si vous décrivez vos 26 patients dans une 1e table et n’utilisez les données que de 15 d’entre eux pour étudier votre objectif principal, cela peut apporter une certain confusion : expliquez clairement dans vos tables quels sont les sujets impliqués.

L’imputation multiple peut permettre de « deviner » certaines variables manquantes sur la base d’autres variables. D’autres informations comme l’antalgie administrée pourraient par exemple être utilisées à cette fin. Mais cette stratégie n’est valable que pour un nombre plus restreint de valeurs manquantes et sur des effectifs plus conséquents. → sans intérêt dans votre situation.

Le caractère aléatoire des valeurs manquantes est très difficile à prouver. Il me parait peu probable dans votre situation (praticien dépendant, patient dépendant, charge du service dépendant, etc).

Il existe plusieurs figures permettant la représentation des valeurs manquantes. Tout va dépendre de ce que vous souhaitez explorer. Vous pouvez décrire vos variables quali à l’aide diagrammes en barres et vos variables quanti à l’aide de boîtes à moustache en séparant vos sujets avec vs sans valeur manquante pour une échelle. Cela mettra en perspective les différences pour chaque variable entre les sujets sans/avec valeur manquante
Il existe aussi des figures dites « missing pattern » qui décrivent les associations entre valeurs manquantes (cf 1e figure) : mice: The imputation and nonresponse models
Dans tous les cas il vous faudra chosir la ou les quelques figures d’intérêt parmi la masse que cela représente.

Pour ce qui est de votre interprétation : tout est discutable dans une discussion il faut juste savoir relativiser la certitude employée en fonction des biais que vous avez rencontré.

19V · Octobre 31, 2023, 10:26

Bonjour merci pour votre réponse.
j’ai comparé les caractéristiques pouvant influencer négativement sur l’efficacité du ttt, entre mes patients inclus (n=15) et exclus de l’analyse (n=11) d’efficacité. Mais je ne retrouve aucune différence statistiquement significative (j’imagine, du fait des faibles effectifs). Les proportions sont plus élevées de 10 à 20% pour certaines variables dans le groupe exclus, et parfois moins élevées pour d’autres variables. Ainsi il est difficile de pouvoir dire si l’éventuel biais de sélection généré va dans le sens d’une surestimation ou d’une sous estimation de l’effet réel du ttt.
Est-il possible d’écrire dans la section limites de l’étude qu’il n’est pas possible de déterminer la direction pour ce biais ou faut-il absolument trancher sur sons sens ? (la comparaison avec la littérature me dit qu’il y a une moins bonne efficacité du ttt dans mon étude. Je pense qu’il y a eu une sous estimation probable de l’effet en partie liée aux fluctuations aléatoires dues au faible effectif et à un biais de mesure. Mais je ne vois pas d’argument pour dire que cela vient d’un biais de sélection).

J’avais également une autre précision à demander. Au niveau de la partie méthodes, est ce que le fait d’avoir appliqué une délétion par liste pour analyser l’efficacité du traitement doit figurer dans les critères d’exclusion de l’étude ou est ce que cela doit être détaillé dans la partie analyse statistique ?
L’objectif de mon étude était de faire un état des lieux de la pratique, donc de décrire la population rejointe, les conditions d’utilisation du ttt, la tolérance et évaluer l’efficacité obtenue. J’ai réalisé une inclusion exhaustive des bénéficiaires incidents qui représentaient 26 patients. Les 3 premiers points ont été décrits pour ces 26 patients. Mais du fait des données manquantes l’efficacité n’a été évaluée que pour 15 patients. Est ce que cela doit figurer dans les critères d’exclusion de l’étude bien que j’ai inclus et décris 26 patients pour tous les autres points ? ou bien est ce qu’on considère que cela fait partie des méthodes d’analyse statistiques qui sont réalisés sur cas complets ?

Merci par avance pour votre retour.
Bonne soirée.

19V · Novembre 1, 2023, 11:26

J’avais également une dernière question en lien avec les données manquantes (je me permets d’afficher le tableau que j’ai inclus dans ma thèse pour plus de clarté).
J’ai présenté les données individuelles pour les patients ayant eu un traitement de consolidation, car c’était un peu compliqué de faire des tests statistiques vu le nombre de données manquantes et les arrêt de traitement. j’ai simplement décrit que 7 patients avaient continué de s’améliorer et que leur amélioration maximale incluait une réponse réponse partielle etc…
Je vois que dans certains articles, les auteurs présentent des effectifs / fréquences cumulés de réponse, rémission etc… Je me demandais toutefois si cela est correct dans mon cas de réaliser cela sur la base d’un tel « gruyère » de données. De plus par exemple pour le patient 9 on voit qu’il a une rémission à 1 mois mais plus à 4 mois. Alors je n’ai pas compris comment les fréquences cumulées peuvent être calculées en tenant compte de ces évolutions.

Merci par avance pour votre retour. En vous souhaitent une bonne journée

DrPasco · Novembre 2, 2023, 8:49

Bonjour,

Direction des biais : aucune obligation de se prononcer. Dans de nombreux cas c’est même impossible.

Déletion par liste : cela va dépendre de la façon dont vous avez procédé.

Si vous avez supprimé de tous vos résultats ces sujets, cette notion peut être intégrée à vos critères d’exclusion/non-inclusion.
Si vous avez conservé ces sujets pour certaines parties de vos analyses (ex : description globale en Table 1), dans ce cas vous ne les avez pas exclu de l’étude mais seulement de certaines analyses. Il est alors plus classique de décrire cet aspect dans la partie analyse statistique en précisant quelles analyses ont fait l’objet de cette délétion.

→ d’après votre message, la 2e situation semble mieux convenir

Données cumulées : il est possible de calculer des statistiques cumulées malgré des données manquantes. Dans ce cas on privilégiera la lecture de % calculé sur l’effectif disponible et en mentionnant le nombre de données manquantes. Par exemple :

N=50	Pré-thérapeutique	Fin de cure	…
Dépression	50 (100%)	30 (67%)	…
Rémission	0 (0%)	5 (11%)	…
Consolidation arrêtée	0 (0%)	10 (22%)	…
— Données manquantes	0	5	…

Le fait que le statut d’un sujet soit réversible est en effet problématique. Une solution peut être de créer un statut « rechute » permettant ainsi de classer :

initialement tous les sujets comme malades
puis le cas échéant en rémission
et enfin en rechute de façon définitive les sujets en rémission qui présentent à nouveau les critères de maladie

→ pas de règle absolue à ce sujet. Pensez à transcrire ces choix dans votre méthodologie.