Comparaison de proportions à différents temps dans une même population

Xanathos · Avril 13, 2023, 5:41

Bonjour,

Tout d’abord, un grand merci pour l’existence de ce forum.
Si les questions que je vous pose nécessitent beaucoup de temps de votre, n’hésitez pas à me contacter pour que je puisse vous rétribuer et ainsi ne pas trop abuser de votre temps libre.

Dans le cadre de ma thèse, j’ai des statistiques assez basiques à réaliser mais je voudrais votre avis sur les tests à réaliser.

1 - Je cherche à comparer plusieurs proportions dans une même population.
Par exemple, prenons 1000 poules qui constitueront ma population de départ.
A l’instant T, 700 poules pondent au moins un oeuf par jour sur les 1000.
Un an après, 200 poules sont mortes. 400 poules sur les 800 restantes pondent au moins un oeuf par jour.
Un an après, 300 poules supplémentaires ne sont plus, et 200 poules sur les 500 restantes pondent au moins un oeuf par jour.
Un an après…

Si je veux comparer 700/1000 - 400/800 et 200/500 dans ce contexte, quel test statistique dois-je utiliser ?
Tous les exemples que je trouve pour tenter de comprendre prennent des échantillons différents comme postulat de départ, or je n’ai qu’une seule population.
Je peux effectuer cette comparaison avec la fonction prop.test de R mais je ne trouve nulle part la portée et la validité de ce test statistique.

2 - Si on prend la même population de poules, je souhaite comparer leur âge à différents instants chez les survivants.
Par exemple, l’âge moyen des 1000 poules de départ, l’âge moyen à 1 an, l’âge moyen à 2 ans, l’âge moyen à 3 ans…
Est-ce bien un test T de Student qui est à réaliser ?
Là encore, je ne trouve que des exemples avec plusieurs échantillons, et pas la même population de départ

Merci d’avance pour votre aide bienveillante
Cordialement

DrPasco · Avril 13, 2023, 10:45

Bonjour,
Je pense que votre difficulté à trouver le bon test est lié à la formulation de votre problème.

1 - Si je résume : vous mesurez un paramètre binaire (ponte d’au moins un oeuf ou non) dans une population et vous souhaitez étudier son évolution dans le temps. T0:700/1000 → T1:400/800 : nous passons de 70% à 50% et j’imagine que vous souhaitez savoir s’il s’agit d’une différence significative ?
Le problème ici est que votre population a été censurée (les poules décédées).
On ne peut pas utiliser un test statistique apparié car certaines poules sont manquantes à T1.
Les tests simples (Chi2, Fisher, etc) sont également exclus car ils ne sont possibles qu’entre 2 échantillons indépendants. Or les individus du T1 sont inclus dans ceux du T2.

Pris sous un autre angle : la définition de vos 2 « groupes » (T0 / T1) dépend du paramètre survie. Comparer T0 avec T1 en terme de ponte revient potentiellement à la question suivante : la ponte d’au moins 1 oeuf est-elle liée à une meilleure/moindre survie ?
Si cette question fait sens dans votre contexte, il faut alors se diriger vers un test de survie (Logrank voire régression de Cox).

2 - Le test de Student lui aussi suppose des échantillons indépendants, il est donc d’office exclu.
Pour cette 2e question je vous propose la même reformulation : l’âge des poules est-il un facteur de meilleure/moindre survie ?
L’âge étant une variable quantitative, vous pouvez :

soit définir 2 groupes d’âge selon un cutoff pertinent et comparer ces 2 groupes à l’iade d’un test du LogRank (voire une régression de Cox)
soit conserver l’âge comme variable quantitative mais dans ce cas seule la régression de Cox vous permettra de tester son association avec la survie

PS : la régression de Cox présente l’avantage de quantifier le poids de vos variables (ponte et âge) sur la suvie en fournissant un Hazard Ratio (HR). Mais les régressions de Cox ne sont pas toujours réalisables (cf conditions d’application). Parfois seul le test du LogRank est possible.

Est-ce que ces reformulations correspondent à votre situation ? Dans le cas contraire n’hésitez pas à reformuler votre situation. Si vous ne souhaitez pas dévoiler trop de détails sur votre étude (ce que je comprends parfaitement) vous pouvez me communiquer ces éléments par message personnel et je reformulerai ici ma réponse sans trahir votre projet.

Xanathos · Avril 14, 2023, 2:24

Merci de votre réponse détaillée.
En effet, je n’ai pas été suffisamment précis.
Je vous contacte en MP

DrPasco · Mai 4, 2023, 8:49

Après échange par MP, je reformule votre situation :

L’étude consiste à réaliser un examen à intervalle régulier (T0, T1, T2) sur une population fixe dans le temps.
La conclusion de l’examen est binaire (positif/négatif).
Il y a une part très importante de perdus de vue entre les différents temps T0/T1/T2

Vos objectifs sont :

évaluer si taux de positivité de l’examen diffère entre les temps T0/T1/T2
évaluer si les caractéristiques de la population ayant réalisé les examens à T0/T1/T2 sont similaires

Pour votre 1er objectif : le fort taux de perdus de vue pose problème.
Une analyse de survie permettrait de censurer les pedus de vue mais cela n’est pas possible avec seulement 3 mesures.
Nous ne pouvons pas simplement comparer les taux de positivité entre chaque temps via un Chi2 ou Fisher car les sujets sont les mêmes. Il faudrait donc réaliser un test apparié (ex : test de MacNemar entre T0 et T1 puis entre T1 et T2) mais cela suppose d’exclure tous les sujets perdus de vue et donc engeandrera un biais de sélection majeur.
Je crains qu’une approche purement descriptive (donner les taux de positivité aux différents temps) ne soit la seule solution.

Pour votre 2e objectif : s’agissant des mêmes sujets aux différents temps, des variables comme le sexe et l’âge ne devraient varier que du fait des perdus de vue (et du temps écoulé entre les 3 temps). Comparer ces variables entre les différents temps revient donc à voir si l’âge et le sexe sont liés au suivi (au fait d’être perdu de vue ou non).
Reformulé différemment votre question revient à vérifier si le sexe (ou autre caractéristique) est un facteur favorisant le suivi ou la perte de vue.

exemple pour le sexe : test du Chi2 ou test exact de Fisher entre la variable sexe et la variable perdu de vue (oui/non). Il vous faudra alors réaliser la comparaison à T1 et à T2 séparemment. Pas d’intérêt à T0 puisque c’est la 1e visite.
pour la variable âge : même chose mais avec un test de Student non apparié (ou de Wilcoxon) entre l’âge des perdus de vue à T1 et l’âge des suivis à T1. Puis même chose à T2.

Un conseil : Lorsque vous ne parvenez pas à trouver la bonne approche statistique pour répondre à votre question, essayez de vous raccrocher à des tests simples. Pour ce 2e objectif par exemple, la clé était de repenser votre question sous la forme d’une comparaison de 2 groupes (suivis vs perdus de vue).