Additif : le test sur des données du vaccin DTP réalisé à la demande de l'association E3M est détaillé un peu plus loin dans un encadré ...

En lançant 100 fois une pièce de 1 euro j'ai obtenu 60 piles alors qu'en lançant 150 fois une pièce de 2 euros j'en ai obtenu 75. Je cherche à savoir si les 2 pièces ont la même probabilité de tomber sur pile.

Le test classique

On raisonne habituellement ainsi  :  si les 2 pièces ont la même probabilité p de tomber sur pile, on obtient la meilleure estimation possible pour p en prenant (60+75) / (100+150)=0,54.

 

Sous une forme plus théorique, les variables aléatoires X et X' donnant les nombres de piles obtenus au cours de ces 2 expériences suivent des lois binomiales indépendantes B(100 ; p) et B(150 ; p')p et p' sont les probabilités théoriques pour ces pièces de tomber sur pile. Les moyennes (espérances) sont 100p et 150p' alors que les variances sont 100 p(1-p) et 150p'(1-p'), les valeurs observées pour X et X' étant x=60 et x'=75, notant par une lettre minuscule les valeurs prises par les variables aléatoires notées avec des majuscules.

On considère alors la variable aléatoire donnant la différence des 2 proportions

Y= X/100-X'/150 qui a pris la valeur y=60/100-75/150=0,1.

On aura E[X/100-X'/150]=p-p'=0 si on admet p=p'.

La notation E(U) exprime l'espérance, c'est à dire la moyenne attendue de la variable aléatoire U.

La variance de X/100 vaut var(X/100)/100²=100p(1-p)/100²=p(1-p)/100. De même, var(X'/150)=p'(1-p')/150.

Aussi, la variance de Y sera la somme de ces 2 variances. Si p=p'  on obtient

 var(Y)=p(1-p)[1/100+1/150].

En remplaçant p par sa valeur estimée 0,54, la variance de Y pourra être estimée par  

0,54x0,46(1/100+1/150)=0,00414

 

Ainsi, on admet que la variable aléatoire Y suit une loi normale centrée (moyenne nulle) et de variance estimée 0,414. La valeur observée pour Y étant connue (0,6-0,5=0,1), on peut calculer la probabilité d'observer pour Y une valeur au moins égale à 0,1. Elle vaut 6,01% qui n'est pas significatif d'une différence entre les valeurs théoriques p et p'.

 

Les 2 biais pour l'estimation de la variance

On estime en réalité var(Y) par la variable aléatoire V=U(1-U)[1/100+1/150] avec U=(X1+X2)/250. Il faudrait que V soit ce qu'on appelle un estimateur de var(Y), ce qui signifie, par définition, E(V)=var(Y). Or la variable aléatoire V est doublement biaisée, c'est à dire que E(V) n'est pas égale à var(Y) et ce pour 2 raisons différentes. Ce sont ces biais dont je vais maintenant essayer de mesurer l'impact sur les tests.

 

On obtient un estimateur sans biais W de var(Y) en prenant :

W=(X/n)*(1-X/n)/(n-1) + (X'/n')*(1-X'/n')/(n'-1)

où les variables aléatoires X et X' sont binomiales B(n ; p) et B(n' ; p').



L'estimateur usuellement utilisé étant

V=U(1-U)/n+ U(1-U)/n' avec U=[X+X']/(n+n')

Pour ne pas trop décourager les lecteurs, je vais d'abord montrer sur des exemples numériques les différences obtenues dans les tests en utilisant V ou W. En annexe, je donnerai une démonstration de ces résultats.

 

EXEMPLE 1

Prenons n=100, x=85, n'=1000, x'=770 (x et x' sont les valeurs prises par les variables aléatoires X et X' sur l'expérience).

En testant en estimant la variance de Y par V on obtient la probabilité 3,34% non significative au seuil 5% car supérieure à 2,5%.

En testant en estimant la variance de Y par W on obtient la probabilité 1,83%, significative au seuil 5% car inférieure à 2,5%. 

 

La différence entre les 2 tests est suffisante pour changer la décision du test !!!

On voit ainsi qu'il n'est pas possible de négliger l'affaire en se contentant d'utiliser V comme estimateur sous le seul prétexte qu'il serait plus commode et, surtout sans doute, parce que c'est l'usage comme l'illustrent les nombreux cours de statistique qu'il est possible de trouver sur internet.

 Additif du 5 mai 2014

Exemple avec des données sur le vaccin DTP

 

J'ai été sollicité par l'association E3M pour effectuer les tests statistiques correspondants aux données suivantes :

 1- au cours d'une période donnée il avait été notifié 23 événements indésirables (EI) alors que 213224=n doses avaient été vendues au cours de la même période ;

 2- au cours d'une autre période ce sont 6 EI qui furent notifiés alors qu'il y avait eu 552857=n' doses vendues.

 Avec ces données, peut-on accepter que la probabilité de notification d'un EI avait été la même pour les 2 périodes ?

 Le test va donc consister à comparer les 2 proportions observées 23/n et 6/n' au moyen d'une loi normale centrée (moyenne 0) et dont la variance sera estimée par  l'estimateur sans biais W qui prend ici la valeur :

 W=(23/n)(1-23/n)/(n-1)+(6/n')(1-6/n')/(n'-1)

La probabilité d'obtenir un écart au moins aussi grand que celui obtenu avec les valeurs observées 23/n et 6/n' est alors

1,16/100000

qui est évidemment très, très significative et devrait faire rechercher une cause non aléatoire pouvant expliquer de tels écarts.

 

Remarque : en utilisant l'estimateur biaisé V on obtiendrait la probabilité 3,1 sur 10 milliards qui serait évidemment encore plus significative si on retenait cette valeur.

Cet exemple illustre bien l'importance qu'il y aurait à utiliser systématiquement l'estimateur non biaisé plutôt que l'estimateur usuel. Ici ce n'est évidemment pas la division par n-1 plutôt que n qui modifie le résultat mais l'écart important entre n et n' ainsi qu'entre 23/n et 6/n'.

     Bernard Guennebaud

 Fin de l'additif

 Des écarts aussi importants ne s'observent pas toujours comme vont le montrer d'autres exemples :

AUTRES EXEMPLES

2- n=100 avec x=45 ; n'=200 avec x'=110. On obtient 5,114% avec V et 5,109% avec W, différences tout à fait négligeable. On peut noter ici que 1-45/100=0,55=110/200. Aussi, l'écart provient seulement du remplacement de n et n' par n-1 et n'-1 qui devient négligeable quand n et n' sont assez grands.

3- n=100 avec x=55 ; n'=1000 avec x'=450. On obtient 2,785% avec V et 2,82% avec W. Ici, on observe que 1-x'/n'=x/n. C'est ce qui explique que les résultats sont très proches.

 4- n=100 avec x=85 ; n'=100 avec x'=77. Les proportions sont les mêmes que dans l'exemple 1, mais n'=100 au lieu de 1000. On trouve 7,46557 % avec V contre 7,4615%avec W. On voit sur cet exemple l'importance du décalage entre les tailles des 2 échantillons comme 100 et 1000.

 

Ces observations suggèrent que les écarts importants seraient liés tout particulièrement à 2 facteurs  simultanés :

1- Un écart suffisant entre les deux proportions x/n et x'/n' mais aussi entre x/n et 1-x'/n' comme 0,85 et 0,77 dans l'exemple 1.

2- Un déséquilibre important entre n et n' comme 100 et 1000 dans l'exemple 1. Cette situation se rencontre tout particulièrement dans les études cas-témoins où les témoins sont généralement beaucoup plus nombreux que les cas, comme par exemple pour la fameuse étude Hernan (14 septembre 2004) sur le lien entre la vaccination hépatite B et la sclérose en plaques où il y avait 10 témoins par cas.

 

EXEMPLE 5

Pour confirmer le rôle de ces 2 critères prenons x=95 et x'=880 avec n=100 et n'=1000. On obtient 1,77% avec V contre 0,19% avec W qui est significatif au seuil 1% (<0,5%) alors que le test n'est pas significatif à ce seuil si on utilise V.

Remarque: on obtiendrait exactement les mêmes résultats en remplaçant les valeurs observées par leurs complémentaires à 100 et 1000, soit 5 et 120 sur cet exemple. En effet, les variances ne changent pas, de même que la différence des proportions.

EXEMPLE 5 bis

Échangeons les proportions : 88 parmi 100 contre 950 parmi 1000. Avec V la probabilité sera 0,19% alors qu'avec W elle sera 1,80%. L'écart entre les 2 valeurs reste aussi important même si sons sens est inversé.



Pour essayer de comprendre ...

Le test mesure la distance entre la moyenne théorique égale à 0 par hypothèse et la valeur observée qui, sur le dernier exemple est :

0,95-0,88=0,07.

Cette distance peut être évaluée en prenant pour unité l'écart-type, la racine carrée de la variance. Plus la variance sera faible et plus cette distance sera grande, rendant plus faible la probabilité associée au test. Précisons avec l'exemple 5 :

Quand on utilise W, 0,95x0,05 sera divisé par 99 et 0,88x0,12 le sera par 999. Aussi, cette dernière quantité sera très faible par rapport à la première.

Quand on utilise V, 95+880=975 sera divisé par 1100 soit 0,886. L'estimation de la variance sera 0,886x0,114/100 + 0,886x0,114/1000. Le dernier terme sera aussi presque négligeable par rapport au premier.

En conséquence, l'essentiel va se jouer entre 0,95x0,05/99=0,00048 et 0,886x0,114/100=0,00101 qui est 2,1 fois plus grand. Le rapport des 2 variances est 1,89, ce qui confirme qu'en utilisant V dans ces conditions on obtient une évaluation largement surestimée de la variance.

Plus précisément, comme 880 est beaucoup plus grand que 95, il écrase le 95 : dans l'estimation de la variance par V, on remplace en fait pratiquement 0,95x0,05/99 par 0,886x0,114/100 qui est très proche de 0,88x0,12/100. Or 0,88x0,12 correspond aux 880 cas parmi 1000, sauf qu'on divise alors par 100 et non plus par 1000 !!!

 

En utilisant V pour estimer la variance ce seront les résultats obtenus

sur l'échantillon le plus grand

qui auront le poids le plus élevé dans cette estimation

J'ai quand même trouvé un site où cet aspect important est mentionné page 2 :

Cette estimation combinée de la variance « permet d'attribuer plus de poids à l'échantillon de plus grande taille. En revanche, si la différence entre les deux proportions n'étaient pas nulle il ne faudrait pas faire d'estimation combinée »

Mais pour un site montrant que  le problème a été compris, combien d'autres qui n'en ont point conscience... Notons qu'on ne sait pas à l'avance si les 2 proportions théoriques sont différentes.

 Additif (14 février 2014)

Je viens d'en trouver un autre qui donne la bonne formule pour l'estimation de la variance. Voir la partie manuscrite.

Voir aussi ce site intéressant http://jybaudot.fr/Inferentielle/propindep.html

Fin additif

 

Comment on en est arrivé à une telle situation ?

 

Pour une part on peut sans doute lier cette affaire à la facilité de manipulation des lois normales :

 

Soient X et X'  2 variables aléatoires qui suivent des lois normales N(m ; v) et N(m' ; v') caractérisées par leurs moyennes m et m' ainsi que par leurs variances v et v'. Si X et X' sont indépendantes, X+X' suivra la loi normale N(m+m' ; v+v'). Dans la situation étudiée ici, ces lois normales sont censées approximer des lois binomiales. Mais cela reste implicite, aussi on oublie facilement l'origine binomiale qui pourtant va resurgir par l'expression de la variance np(1-p).

La variable aléatoire X/n aura pour espérance m/n=p et pour la variance v on aura

v=np(1-p)=m(1-m/n)

 

On peut comprendre que si X ne suit pas une loi binomiale il n'y aura guère de chance pour que cette relation liant m, v et n soit satisfaite.

 

 CONSÉQUENCE

C'est exactement la situation dans une étude cas-témoins où les témoins sont beaucoup plus nombreux que les cas. Le test consistant à comparer les proportions de vaccinés (d'exposés) dans les 2 groupes, si on utilise le test classique avec V pour estimer la variance, on pourra donner un poids trop important aux résultats obtenus sur les témoins, ce qui entrainera un test ayant moins de chances d'être significatif.

J'étudierai ce problème dans un autre article à venir. En attendant, l'étude Tardieu 2007 sur la sclérose en plaque chez les enfants vaccinés contre l'hépatite B donne 143 cas dont 80 vaccinés contre 1122 témoins dont 609 vaccinés. Les proportions 80/143=0,5594 et 609/1122=0,54278 étant très proches, malgré la différence importante entre les nombres de cas et de témoins, les tests par V et par W devraient donner des résultats très proches. En effet, par V on trouve 0,35324 et 0,35318% par W.

Sur les sites ci-dessous, entre-autres, on pourra constater que le problème n'est pas soulevé.

 

En conclusion, on devrait s'efforcer de réserver le test de comparaison de 2 proportions

à des lois binomiales.

 

On peut cependant noter que si l'échantillon de n individus a été choisi de façon aléatoire dans une population A ayant une proportion p de vaccinés, la variable aléatoire X donnant le nombre de vaccinés pourra être considérée comme binomiale B(n ; p).

Chacun des n cas choisis aura alors une probabilité p d'être choisi,

ce qui est différent  de sa probabilité d'avoir été vacciné.

Encore faut-il que les n cas de l'échantillon puissent être considérés comme ayant été

choisis de façon aléatoire,  ce qui ne sera pas toujours acceptable.

  

http://www.ann.jussieu.fr/gentes/documents/cours2.pdf page 23

 

http://rfv.insa-lyon.fr/~jolion/STAT/node115.html

 

http://udsmed.u-strasbg.fr/labiostat/IMG/pdf/proportions-2.pdf

 

http://www.jybaudot.fr/Inferentielle/propindep.html (une nuance cependant : « peut être formalisée ainsi ... »

 

http://benestnao.perso.sfr.fr/FicExcelZippes&pdf/Test2Parametres.pdf

 

http://www.math.univ-toulouse.fr/~san/proba6.pdf page 3

 

http://jebrane.perso.math.cnrs.fr/ps2/Tests_param%E9triques_de_comparaison.pdf page 17

 

http://www.med.univ-montp1.fr/enseignement/cycle_2/Autres-Mod-Oblig/MB6/commun/polycop_biostat_tome_1_methodes_statistiques.pdf page 62

 

 

ANNEXE

 

Définition des variables de Bernoulli

 Une variable de Bernoulli X est une variable aléatoire qui ne peut prendre que les valeurs 0 et 1. Si p est la probabilité qu'elle prenne la valeur 1, X sera une loi binomiale B(1 ; p). On a bien sûr X²=X. La moyenne de X ( son espérance) sera

 

E(X)= 0x(1-p) + 1xp=p.

 

Sa variance sera, selon une formule générale : var(X)=E(X²)-E(X)²

 

qui dans ce cas particulier devient

 

var(X)=E(X)-E(X)²=p-p²=p(1-p)

 

Soit maintenant X une variable aléatoire binomiale B(n ; p). Par définition, elle est la somme de n variables de Bernoulli X1, … Xn indépendantes et de même loi. Xi sera donc B(1 ; p). L'espérance de X sera la somme des espérances des Xi soit E(X)=np. Les variables aléatoires Xi étant indépendantes, la variance de X sera la somme des variances des Xi soit var(X)=np(1-p).

 

Estimateur d'un paramètre m

 

La variable aléatoire Y est un estimateur de la valeur numérique m (généralement inconnue) si E(Y)=m. En conséquence, X sera un estimateur de l'espérance np.

 

On a aussi besoin d'un estimateur de la variance de X. On a :

 

E[X(1-X/n)]=(n-1)p(1-p)

 

Donc X(1-X/n) n'est pas un estimateur de var(X). On dit qu'il est biaisé.

 

Démonstration

 

Soit U=X/n=(X1+...+Xn)/n la variable aléatoire donnant la moyenne des Xi. On aura alors

Z=X(1-X/n)=nU(1-U)=nU-nU²=X1+... +Xn – [X1²+... +Xn² + ∑XiXj ] /n avec i≠j.

 

Z=[nX1+ … +nXn - (X1²+... +Xn² + ∑XiXj) ] /n

 

Comme Xi²=Xi on aura Z=[(n-1)(X1+... +Xn) - ∑XiXj ]/n  De plus, il y a n(n-1) couple (i ; j) avec i ≠ j d'où 

E(Z)=[ n(n-1)p - ∑p² ]/n = n(n-1)[p-p²] /n=(n-1)p(1-p).

 

Aussi, en corrigeant X(1-X/n) par n/(n-1)  :

 

La variable aléatoire X étant binomiale B(n ; p) on aura

E[nX(1-X/n)/(n-1)]=np(1-p)=var(X)

La variable aléatoire nX(1-X/n)/(n-1) est un estimateur sans biais de var(X)

 

 

Cependant, si n est un peu grand, le rapport n/(n-1) sera proche de 1 et le biais sera négligeable si on utilise X(1-X/n) comme estimateur de var(X).

 

C'est le premier biais annoncé. Il en existe un second dont l'impact peut être beaucoup plus important comme on l'a vu sur les exemples 1 et 5.

 

Estimateurs pour la différence de deux proportions

Soit X et X' deux variables aléatoires indépendantes binomiales B(n ; p) et B(n' ; p').

On a E(X/n)=E(X)/n=p et de même E(X'/n')=p' 

Aussi  E[X/n – X'/n']= p - p'

La variable aléatoire Y=X/n – X'/n' est donc un estimateur de p-p'.

Cherchons maintenant un estimateur pour la variance de Y. On a 

var(X/n)=var(X)/n²=np(1-p)/n²=p(1-p)/n.

Comme var(Y)=var(X/n)+var(X'/n') on aura

Var(Y)=p(1-p)/n+ p'(1-p')/n'

On obtiendra un estimateur sans biais de var(Y) en prenant

Z=(X/n)(1-X/n)/(n-1) + (X'/n')(1-X'/n')/(n'-1)

E(Z)=var [X/n – X'/n']


Démonstration

On a en effet E[X(1-X/n)]=(n-1)p(1-p) et donc

E(X/n)(1-X/n)=(n-1)p(1-p)/n=(n-1)p(1-p)/n

En divisant par n-1 on éliminera le n-1 du numérateur. D'où le résultat.

 

V n'est pas estimateur de la variance quand p p' 

 

Il est possible de voir précisément et facilement ce qui se produit en prenant pour X et X'  des variables de Bernoulli. On veut estimer

 

var(X/1-X'/1)=var(X+X')=var(X) + var(X')

 

On a dans ce cas var(X) +var(X')=p(1-p)+p'(1-p')=p+p'- p²- p'²

 

Avec U=(X+X')/2 on aura V=U(1-U)[1/1+1/1]=2U(1-U) soit

 

V=(X+X')[1-(X+X')/2] =(X+X') – (X+X')²/2=X+X' – (X² +X'² + 2XX')/2

 

V=X/2 + X'/2 – XX'

 

2V=X+X' - 2XX'

 

On aura E(2V)=p+p '- 2pp' = p(1-p') + p'(1-p) au lieu de p(1-p)+p'(1-p')

 

.On aura E(2V) – var(X-X')= p²+p'²- 2pp'=(p-p')²>0 ou encore

 

E(2V)/var(X-X')=1+(p-p')²

 

E(2V) ne sera donc pas un estimateur de var(X-X').

 

Exemple numérique : p=0,85 et p'=0,7  donnent 1+(p-p')²=1,0225