Comparer 2 moyennes ?

                  DANGER, C'EST RISQUÉ !!!

J'ai lancé 200 fois des pièces françaises pour obtenir 100 piles. J'ai fait de même avec des pièces allemandes et j'ai aussi obtenu 100 piles. Inutile d'aller chercher un test statistique pour conclure que, sur cette expérience, on ne peut rejeter l'hypothèse que les pièces allemandes et françaises auraient la même probabilité de tomber sur pile !

Il existe cependant un test qui permet de le faire. En tapant comparaison de deux proportions sur un moteur de recherche vous trouverez de nombreux cours universitaires sur ce sujet *. Mais aucun ne vous dira ce que je vais essayer d'expliquer ici puis, dans un autre article à suivre, sur les 2 biais de ce test très classique.

* Par exemple Jussieu :  http://www.ann.jussieu.fr/gentes/documents/cours2.pdf page 23

* Ou encore Rennes  page 24 : http://perso.univ-rennes1.fr/jean-christophe.breton/Fichiers/stat_IUT.pdf

Pour obtenir 100 piles en 200 jets de pièces françaises, j'avais d'abord lancé 100 fois une pièce de 1 euro pour trouver 40 piles. En réalité, la probabilité théorique pour cette pièce, de tomber sur pile est 40%. J'avais prolongé l'expérience en lançant 100 fois une pièce française de 2 euros et j'avais obtenu 60 piles. En réalité, cette pièce avait 60% de chances de tomber sur pile à chaque jet.

De même, en lançant 100 fois une pièce allemande de 1 euro, j'avais obtenu 60 piles alors que la probabilité théorique de cette pièce pour tomber sur pile est 60%. J'avais terminé par une pièce allemande de 2 euros qui avait donné 40 piles en 100 lancers alors que sa probabilité théorique de donner pile était 40%.

Mais si je compare les résultats donnés par les pièces de 1 euro, j'ai 40 piles sur 100 pour la française contre 60 sur 100 pour l'allemande. A vue on se doute qu'un tel résultat pourrait être pour le moins significatif d'une différence entre les 2 pièces pour ce qui est de leur probabilité de tomber sur pile. On teste classiquement l'hypothèse nulle exprimant que cette probabilité est la même pour les 2 pièces (leur différence est nulle). Il donne 0,24% de chances d'obtenir un écart au moins aussi grand que celui qui a été observé. On est ainsi conduit à rejeter l'hypothèse nulle et à accepter qu'il y aurait une différence entre les 2 pièces, ce qui est le cas puisque les probabilités théoriques sont 40% pour l'une et 60% pour l'autre.

Force est de constater que ce signal fort n'apparaissait pas

dans la comparaison cumulée

entre les 2 pièces allemandes et les 2 pièces françaises



On arriverait évidemment au même constat en comparant les pièces françaises et allemandes de 2 euros.

 

Cela est connu sous le nom de paradoxe de Simpson. Voir mon article :

 

Le paradoxe de Simpson en statistiques médicales : un match de Coupe Davis !

 .

Faut-il craindre qu'au cours d'une analyse statistique de données on puisse

laisser passer, tout à fait involontairement, un signal fort ?

On verra que la réponse est OUI.

Comment faire alors pour en réduire le risque ?

 

Analysons d'abord l'exemple précédent

A chaque jet, chaque pièce a la même probabilité de tomber sur pile, 0,4 ou 0,6 selon les pièces. Ces probabilités théoriques ne dépendent pas du nombre de jets. Quand on comparait les pièces de 1 euro entre-elles, on cherchait seulement à tester leur égalité.

Par contre, quand on cumule les jets des 2 pièces françaises, on fait dépendre la moyenne théorique de la taille des échantillons : ce sera ici 50% car on a lancé les 2 pièces le même nombre de fois. Mais si la pièce de 1 euro est lancée 100 fois et celle de 2 euros 200 fois, on obtient (40+2x60)/300=53,3% . Si celle de 1 euro est lancée 200 fois et celle de 2 euros 100 fois on obtient 46,7%.

En conséquence, en testant dans ces conditions,

on fera dépendre l'hypothèse à tester des tailles relatives des échantillons entre-eux.



Plus généralement, les moyennes théoriques auront les formes suivantes :

(n1p1 + n2p2)/(n1+n2) et (n'1p'1 + n'2p'2)/(n'1 +n'2) dont on cherche à tester l'égalité. On voit  qu'il ne sera pas possible de tester ainsi les hypothèses p1=p'1 et p2=p'2 alors que ce sont ces hypothèses qui sont essentielles et qu'il faudrait tester. En effet, même si ces 2 moyennes étaient égales avec n1=n'1= n2=n'2 , ce qui donne p1 +p2=p'1 +p,'2 on pourrait avoir  p1 différent de p'1 et pdifférent de p'2 : il suffit de prendre  p'1= p1-a et p'2=p'2+a

 

Une histoire de choux bio et pas bio ...

Un panier de 10 choux contient 7 choux pas bio à 1 euro et 3 choux bio à 2 euros, soit 13 euros le lot ; 1,30€ le prix moyen du choux.

Un lot de 100 choux contient 70 bio à 2€ et 30 pas bio à 1€, soit 170€ le lot ; 1,70€ le prix moyen du choux. On constate que le prix moyen est beaucoup plus cher dans le second lot alors que les choux sont au même prix.

Maintenant le marchand accorde 10% au second lot pour achat en gros, soit 153€ et donc 1,53€ le prix moyen qui est encore largement supérieur à 1,30€. La conclusion pourrait être que les choux du second lot sont plus chers que ceux du premier alors qu'ils sont 10% moins chers.

Voilà ce qui peut se produire quand on teste sur des moyennes obtenues avec des données non homogènes !

Remarque

On peut noter qu'ici p1 et p2 ne sont pas des probabilités de lois binomiales où les pi sont des nombres entre 0 et 1 mais les prix théoriques des choux bio et non bio. Cependant, la formule donnant les prix moyens est la même :

(7x1+3x2)/(7+3)=1,30 ;   (30x1+70x2)/(30+70)=1,70 ;     (30x0,9 + 70x1,80)/(30+70)=1 ,53

En reprenant les expressions générales, on peut facilement voir qu'il faudrait avoir n'1/n1=n'2 /n2 pour pouvoir assurer que la condition p1=p'1 et p2 =p'2 entrainera l'égalité des 2 moyennes sur les données cumulées. Par contre, la réciproque est fausse :

Sur l'exemple, avec p1=1 et p2 =2 l'égalité des 2 moyennes cumulées s'écrit :

(7x1+3x2)/10=(70p'1+30p'2)/100=(7p'1+3p'2)/10

soit  13=7p'1+3p'2  ou  3p'2 =13-7p'1

En choisissant p'1=0,88 par exemple, on obtient p'2=2,28.

Autrement dit, avoir (70xp'1 + 30 p'2)/(70+30)=1,30 ne garantit pas que p'1=1 et que p'2=2. Pour tester ces égalités il sera donc indispensable de dissocier. On peut cependant noter que si p'1=p1 alors p'2 =p2.

 

Un exemple avec le BCG

Il avait été démontré par de très nombreuses expérimentations animales que son efficacité dépendait beaucoup de la dose infectante. Aussi, son efficacité sur des enfants très fortement contaminés (un parent contagieux) est sans doute très inférieure à celle qu'il peut avoir sur des enfants exposés plus épisodiquement. Si on cherche à évaluer son efficacité dans une population d'enfants constituée de très exposés et de modérément exposés, le résultat observé sera directement sous la dépendance des proportions des 2 groupes. Si on se fonde sur le taux observé pour l'appliquer dans une autre population où ces proportions sont très différentes, on pourra faire une erreur d'appréciation.

Pour fonder en 2007 la nouvelle politique vaccinale par le BCG, avec la levée de son obligation pour les enfants, on s'était tout particulièrement appuyé sur une évaluation du nombre de cas évités par le BCG chez les enfants au cours des 6 années 1997-2002. Cette évaluation avait été faite en attribuant a priori un taux d'efficacité au BCG comme 50%. Mais aucune distinction ne fut faite entre les enfants fortement exposés et les autres alors que, pour les premiers, l'efficacité est sans doute bien moindre. Cette évaluation reposait sur au moins une erreur technique majeure : une absence de dissociation entre les enfants fortement et faiblement exposés avec des taux d'efficacité très différents pour la vaccination.

A suivre : les biais des tests de comparaison de deux proportions :

http://questionvaccins.canalblog.com/archives/2014/02/09/29163341.html