Analyses bivariées

Bonjour,
Dans le cadre de ma thèse d’exercice en médecine générale, j’ai réalisé une étude descriptive transversale quantitative : il s’agissait d’une enquête de pratiques avec recueil des données par le biais d’un questionnaire en ligne.
L’objectif principal de mon étude était de dresser un état des lieux de ce qui était fait en termes de promotion d’un vaccin et j’avais comme objectif secondaire d’essayer de mettre en évidence des facteurs influençant l’attitude des praticiens interrogés.
Je dispose d’un effectif relativement faible : malgré plusieurs relances, je n’ai obtenu que 71 réponses sur les 930 questionnaires envoyés (la période estivale, peu propice, à laquelle j’ai effectué mon recueil de données n’a pas dû aider).
Pour satisfaire à l’objectif secondaire de mon étude, j’ai voulu réaliser des analyses bivariées pour rechercher une éventuelle association entre certaines variables recueillies et le fait d’être réticent ou non à promouvoir la vaccination étudiée. J’ai donc divisé mon effectif en 2 groupes : un groupe de sujets « réticent à promouvoir le vaccin » et un groupe « non réticent », en fonction de leur réponse à cette question. Seulement, le groupe de sujets « réticent » ne comporte que 4 individus.
J’ai présenté les résultats de ces analyses bivariées sous la forme d’un tableau et je sais que dans les tables on présente souvent les effectifs accompagnés des pourcentages entre parenthèses mais je m’interrogeais : est-il judicieux (ou en tout cas « acceptable ») de faire apparaitre les pourcentages, dans la mesure où l’effectif du groupe « réticent » n’est que de 4 individus et où on se retrouve parfois avec 2 individus qui représentent 33,3% de l’effectif ?

Pour la recherche d’une association entre la variable « âge » et le fait d’être réticent ou non à la promotion du vaccin, j’avais initialement pris le parti de résumer la variable âge en 2 groupes « 40 ans et moins » et « plus de 40 ans » pour des raisons de praticité de l’analyse. Mais je me demandais, est ce qu’il vaut mieux effectuer la comparaison en gardant la variable âge à l’état de variable quantitative à l’aide d’un test de Wilcoxon-Mann Whitney (la distribution de ma variable « âge » semblant à priori non paramétrique) ?
En sachant que la p-value devient à la limite de la significativité en utilisant cette 2ème option d’analyse et que Biostatgv ne me fournit pas de mesure de la force d’association (qui serait une différence entre les moyennes si j’ai bien compris).

Enfin, toutes mes excuses pour cette dernière question qui est probablement très simpliste mais j’ai beaucoup de mal à comprendre : pour le test d’association entre la variable « niveau de formation en vaccination » qui est une variable que j’ai rendu binaire en regroupant des valeurs numériques (faible / élevé), avec le test exact de Fisher j’obtiens une p-value de 0,033 mais un OR à 14,4 avec un IC95% contenant la valeur 1 [0,844-249,166]. Je ne sais pas quoi en conclure : faut-il conclure que comme l’IC de confiance contient la valeur 1, on ne met pas en évidence d’association entre le niveau de formation et la réticence à la promotion de ce vaccin ?

Bonjour,
Il n’y a rien de faux dans l’utilisation d’un pourcentage, même pour un faible effectif.
Néanmoins dans ce cas précis l’intérêt est en effet limité. Avec 4 sujets dans l’un des groupes les comparaisons n’auront que peu de valeur. Peut-être devriez-vous vous contenter de décrire ces 4 sujets à l’écrit sans chercher à en résumer les valeurs par des statistiques (moyenne, %, etc) ?

Effectuer des tests statistiques dans ces conditions n’aura pas d’intérêt. Vous pourrez difficilement prétendre que ces 4 sujets sont représentatifs de la popualtion réticente à vacciner.
A titre théorique si vous aviez un plus gros effectif, vous pourriez au choix :

  • conserver la variable âge comme quantitative et réaliser un test de Mann-Whitney : dans ce cas la taille d’effet est peu parlante car elle repose sur des différences de rangs entre vos groupes (d’où son absence dans biostatgv). Vous devrez vous contenter d’exprimer pour vos 2 groupes les médianes, Q1, Q3 voire min et max. La différence de moyenne est réservée aux situations paramétriques (et va de paire avec un test de Student).
  • binariser votre variable avec un seuil et effectuer un test de comparaison de proportions.

En binarisant vous chercher à démontrer l’association d’un cutoff d’âge avec l’appartenance à un groupe. En conservant la variable quantitative, vous explorer plutôt la différence linéaire entre vos 2 groupes.
Vous pouvez vous aider d’un histogramme pour voir si un cutoff particulier ressort entre vos 2 groupes.

Enfin pour votre dernière question, vous avez raison quant au principe théorique liant la p-value et les bornes de l’intervalle de confiance. Mais il existe en réalité plusieurs façons de calculer un intervalle de confiance. Dans le contexte précis du test de Fisher, la méthode employée par Biostatgv peut donner des résultats en contradiction avec la p-value.
Une solution pourrait être de conserver votre p-value et votre OR mais de recalculer son intervalle de confiance avec une méthode adaptée comme celle de la vraisemblance minimale (minimum likelyhood).

Via le logiciel R, vous pourriez par exemple écrire quelque chose comme :

install.packages("exact2x2")
library(exact2x2)

# en remplaçant x par votre tableau de contingence
exact2x2(x,tsmethod="minlike")

PS : je peux réaliser ce calcul pour vous si vous me communiquez les 4 valeurs de votre tableau de contingence.

Pour plus d’information sur ce dernier point : Confidence intervals that match Fisher's exact or Blaker's exact tests - PMC

Merci infiniment pour ces réponses détaillées.
Selon vous, il n’y a pas d’intérêt à essayer d’interpréter et même à faire apparaitre dans mon travail l’analyse bivariée? Je ne pourrais rien conclure, même sur des résultats statistiquement significatifs, à cause du faible effectif dans le groupe « réticents » c’est bien cela?

Je vous conseillerai en effet de vous abstenir sur les analyses bivariées.