Test des rangs signés : règles de présentation des résultats d'analyse et notion de taille d'effet

Bonjour,
je me demandais s’il existait un consensus pour la présentation des résultats statistiques pour le test des rangs signés de wilcoxon.
Dans le cas de ma thèse : je compare 2 séries de données appariées sur petit effectif (n=15). J’ai présupposé une distribution non normale (compte tenu du petit effectif).
(en pratique mon objectif est de comparer les scores médians obtenus avant et après traitement sur les 15 patients).
J’ai réalisé le test des rangs signés de 2 façons :

  • calcul à l’aide du logiciel Jamovi ou du site BiostaTGV : les 2 indiquent une valeur observée à 108,5 avec un p=0,006.
  • calcul à la main (que j’ai réalisé après coup car je ne comprenais initialement pas à quoi correspondait le 108,5 indiqué) => je trouve une somme des rangs négatifs à 11,5 et une somme des rangs positifs à 108,5. En comparant la plus petite valeur (11,5) à la valeur critique donnée par la table de wilcoxon j’obtiens un p < 0,05 (voire <0,01)

Ma 1ère question est de savoir s’il existait une règle de nomenclature précise pour présenter ces résultats ? Car je ne suis pas sûre d’avoir compris comment il fallait les écrire dans le texte : est ce qu’il faut présenter la somme des rangs calculée ? (et si oui laquelle ? celle des rangs positifs ou des rangs négatifs ou les 2 ?) ? Sous quelle nomenclature doit-on la désigner (je vois parfois écrit W, ou T ou encore V ou Z) ? Faut-il également préciser le nombre de rangs sommés (dans l’éventualité où il y aurait des écarts nuls) ? Et quelle valeur de p faut-il présenter : celle que le logiciel a calculé (0,006) ou celle que la table me donne (<0,05) ? (parce que je ne suis pas sûre d’avoir compris comment le logiciel calculait la valeur de p).
(ce qui pourrait donner dans mon cas : W=11,5 p< 0,05 ou W=108,5, p= 0,006 ou encore W(11,5 ; 108,5), p=0,006 … (W ou une autre lettre pour désigner la valeur observée)

Et ma 2ème question porte sur la mesure de la taille de l’effet. Le logiciel Jamovi me permet de cocher une case « taille d’effet » pour le test des rangs signés. Il fait une « corrélation entre rangs bisériés » et note une taille d’effet à 0,808.
Je ne suis pas sûre d’avoir compris à quoi correspond la corrélation entre rangs bisériés ni comment le résultat à été obtenu. Je me posais la question de savoir si cette mesure était exact au regard du fait que je compare 2 scores médians et non pas 2 moyennes (sur une distribution non normale) ?

En vous souhaitant un bon weekend et en vous remerciant par avance pour votre aide.

Bonjour,
Comme vous l’avez compris, on présente généralement un résultat sous la forme de sa taille d’effet avec son intervalle de confiance et la p-value associée.
Un test de Student présente l’avantage de pouvoir communiquer une taille d’effet parlante (µ : la différence moyenne).
Dans le cas d’un Wilcoxon, les tailles d’effet disponibles sont moins parlantes puisque l’on travaille sur des sommes de rangs, généralement notés W. C’est pourquoi dans de nombreux articles les auteurs se contentent d’afficher la p-value uniquement. D’autres affichent la valeur de W. D’autres encore ont recours à des transformations de cette statistique comme le d de Cohen, la Z-value voire une corrélation de rangs bisériés. De mon point de vue, aucune de ces transformations ne fait l’unanimité.

Exemples de critiques :

Pour répondre à votre 1e question : à titre personnel je ne précise pas la taille d’effet de ces tests sauf si la revue l’exigence → voir la section « author guidelines » sur le site de la revue.
Ex : l’APA donne des recommandations pour la formulation des résultats de certains tests, mais ne tranche pas pour les Wilcoxon.

Pour ce qui est de la valeur de la p-value : conservez celle fournie par le logiciel arrêté. Le test de Wilcoxon-Mann-Whitney présente quelques variations d’implémentation entre les logiciels. Précisez le logiciel utilisé dans votre méthodologie, cela permettra au lecteur qui en aurait le besoin de retrouver la formule exacte employée en consultant la documentation officielle du logiciel.

PS : attention, le test de Wilcoxon ne compare pas vos scores médians mais leurs rangs. Ca n’est pas exactement la même chose.

Bonjour, merci pour votre réponse.
Oui j’avais pu lire que beaucoup d’articles présentaient les résultats de cette façon.
Est ce que cela peut être reproché de ne pas avoir testé la normalité de la distribution pour savoir si on pouvait ou pas utiliser le test de student ? (J’ai précisé dans la partie méthodes que je n’avais pas testé la normalité de la distribution étant donné le faible effectif et que de ce fait j’utilisais des tests non paramétriques).

Pour le test des rangs signés j’avais lu que pour le p qu’il fallait se référer à une table pour les effectifs inférieurs à 25 donc c’est pour cela que j’avais pensé qu’on n’avait peut être pas le droit de donner la valeur p calculée par le logiciel. Mais si cela est autorisé je présenterais le résultat du logiciel pour la valeur p.

Oui la comparaison des rangs est aussi un élément qui me pose problème dans l’interprétation du résultat. Je ne suis pas sûre de savoir comment il est correct d’interpréter le résultat obtenu ?
J’ai (dans mon cas) un score de sévérité médian initial de 25 (EI=11) et un score médian en fin de traitement à 20 (EI=6), avec un test des rangs signés indiquant p=0,006.
Est ce je peux dire que les scores médians indiquent une réduction et que cette réduction est statistiquement significative ? Ou est ce que c’est faux de conclure cela avec un simple test des rangs signés ?

Et je me demandais également si cela pouvait être intéressant (à défaut de pouvoir chiffrer une différence moyenne), de présenter la médiane des différences observées entre les scores avant et après ttt (elle est de 4 (EI=7) dans mon cas) ou est ce que cela n’apporte pas grand chose ?

Les tests statistiques permettant d’explorer la normalité ont tous un inconvénient : ce sont des tests statistiques et donc leur puissance est liée à l’effectif employé. Ce qui veut dire qu’avec un faible effectif vous pouvez ne pas rejeter l’hypothèse nulle juste par manque de puissance et considérer à tord qu’il s’agit d’une distribution normale.

Les tests non paramétriques (comme le Wilcoxon) ne préjugent pas de la distribution et sont donc autorisés dans les 2 cas → on ne vous en voudra pas de l’avoir utilisé par précaution. A l’inverse, prétendre à une normalité sur la base d’un test sur faible effectif pour vous être reproché.

PS : les points de vue divergent beaucoup d’un statisticien à l’autre quant à la façon de vérifier la normalité.

Pour ce qui est de l valeur de p : celle fournie par le logiciel est présentable dans un article dans votre situation.

Le test de Wilcoxon compare vos rangs. Vous l’avez constaté par vous-même en faisant le test manuellement : il s’agit de voir si la somme des rangs diffère ou non entre vos 2 groupes. La médiane n’explore que l’un de ces rangs, ce n’est donc qu’un indicateur très parcellaire de la situation. Vous pouvez donc dire que les valeurs étaient significativement plus hautes dans le groupe X et vous appuyer sur les médianes/min-max/Q1-Q3 des 2 groupes pour résumer la situation en quelques valeurs clés (ou opter pour des boîtes à moustaches). Cependant vous ne pouvez pas dire que la médiane du groupe A était significativement supérieure à celle du groupe B car ce n’est pas exactement ce que le test explore.

Bonjour, merci pour votre retour.
J’avais une dernière question concernant le test des rangs signés. Y a-t-il un nombre minimal de sujet requis pour pouvoir faire le test ?
Je souhaite voir comment évoluent 3 scores à une échelle de dépression dans 2 sous groupes (les répondeurs et les non répondeurs) de respectivement 6 et 9 patients. Mais je ne sais pas si c’est correct de faire ce type de test pour un effectif de moins de 10 patients.
(les résultats que j’obtiens sont plutôt concordants avec la littérature. Le logiciel me dit que les différences pour les 3 scores sont significatives pour le groupe de 6 patients mais j’ai le même « p » pour chacun des 3 scores étudiés alors je trouve cela un peu bizarre et pour le groupe de 9 patients seule 1 différence de score sur les 3 est significative)

Non pas de condition d’effectif ici.
Le fait que vous obteniez la même p-value est peut être simplement lié au fait que vous comparez les mêmes rangs : malgré des valeurs différentes pour vos 3 scores, il est possible que ces valeurs correspondent à des rangs identiques pour les 3 scores.