Dans mes premières contributions au rapport Gradation* j'avais présenté des exemples indiscutables qui révèlent l'existence de très gros problèmes concernant les études cas-témoins, tout particulièrement quand elles sont appliquées aux vaccinations en raison du calendrier vaccinal qui organise celles-ci en classes d'âge se succédant au pas cadencé comme un défilé militaire (voir les contributions n°1 et n°2)*. Comme je l'ai montré, cela peut tuer l'aléatoire nécessaire pour maintenir une indépendance suffisante entre l'exposition des cas et de leurs témoins associés et neutraliser des signaux forts.

 * Dans la contribution n°1 j'explique ce qu'est le rapport Gradation et dont l’objectif est d’établir un barème pour noter (une seule note par étude) les études épidémiologiques sur les vaccinations afin d’attribuer une FORCE aux recommandations vaccinales. Il y aura les recommandations de force 4 comme les vents ou les tremblements de terre .... VOir mes précédentes contributions*.

 

 

Il faut aussi constater que les auteurs et commentateurs de ces publications n'ont pas vu le problème et que l'ensemble des épidémiologistes ne paraît pas l'avoir vu non plus. Ce constat ne se limite pas à la France comme l'illustre la publication américaine Langer Gould. Il me paraît donc intéressant et important d'essayer de comprendre comment l'épidémiologie en est arrivé à générer une telle situation. C'est pour cette raison que j'essaie maintenant de remonter vers la théorie de la régression logistique pour essayer de mieux en cerner la source.

 

*Les précédentes contributions :

   N°1 : http://questionvaccins.canalblog.com/archives/2016/03/18/33532611.html

   N°2 et 3 : http://questionvaccins.canalblog.com/archives/2016/03/28/33580870.html

  N°4 : http://questionvaccins.canalblog.com/archives/2016/03/28/33582629.html

  N°5 :  N°5 La force des recommandations vaccinales : un critère sans véritable signification ? 

  N° 6 et 7  http://questionvaccins.canalblog.com/archives/2016/03/28/33582686.html

N° 8  http://questionvaccins.canalblog.com/archives/2016/04/09/33643161.html

 

Contribution N° 9 (11 avril 2016)

au rapport Gradation en suivi sur le site du ministère.

Sur la régression logistique non conditionnelle

Lire d'abord la contribution n°1 pour comprendre de quoi il s'agit ...

 

Dans cette nouvelle contribution au rapport Gradation je vais, dans l'application des tests statistiques, tenter de remonter jusqu'aux fondements de la régression logistique pour trouver les causes des problématiques constatées. Je vais m'appuyer sur ce document :

 

La régression logistique en épidémiologie

Jean Bouyer

Recherche en Santé Publique, Universités Paris V, XI, XII

 

https://cel.archives-ouvertes.fr/cel-00124335v2/document

 

Copie d'écran page 8 :

L'exemple de base est celui de la pièce de monnaie lancées n fois (ou le jet de n pièces) avec les 2 conditions fondamentales qui définissent la loi binomiale :

 

1- La pièce à pour chaque jet une même probabilité P de tomber sur pile ;

2- les jets sont indépendants (la pièce n'a pas de mémoire).

 

C'est exactement la situation décrite ci-dessous où la pièce est remplacée par une maladie qui peut apparaître (M+) avec une même probabilité P pour chacune des n personnes considérées (la pièce tombe sur pile) ou ne pas apparaître (M-) (la pièce tombe sur face), les personnes tombant malades de façon indépendante les unes des autres. Cette condition pourrait être problématique pour une maladie contagieuse mais ce n'est pas le cas pour les scléroses en plaques (sauf hérédité?).

 

Copie d'écran page 8, suite :

 

La vraisemblance V présentée ci-dessus n'est rien d'autres que la très classique probabilité d'obtenir k piles quand on lance n fois une pièce (ou n pièces) avec les 2 conditions rappelées auparavant. Force est de constater qu'aucune de ces 2 conditions n'a été mentionnée dans ce document, même de façon allusive. Chacun pourrait donc croire que cette formule serait valable sans aucune condition. Il n'en est rien bien sûr et elles ont beaucoup d'importance, même en épidémiologie comme le démontrent les exemples que j'ai donnés.

Page 10 il est proposé une extension du calcul lorsque les différents individus xi n'ont pas tous une même probabilité P de tomber malade mais une probabilité notée P(i) remplacée par son estimation par la valeur observée pi. Dans l'expression de la formule donnant V il s'agit du produit des 2 quantités précédées du symbole exprimant les produits des pi ou des 1-pi.

 

Copie d'écran, page 10

 

 

On pourrait penser qu'ainsi il devient possible de s'affranchir de la première condition mais certainement pas de la seconde c'est à dire des conditions d'indépendance qui sont en réalité au nombre de trois :

1- l'indépendance entre lesmalades (les cas ) qui permet d'utiliser pi dans l'expression de V ;

2- l'indépendance entre les non malades (les témoins) qui permet d'y utiliser (1-pi) ;

3- l'indépendance mutuelle entre les cas et des témoins permettra d'utiliser le produit des 2 quantités obtenues pi x (1-pi) pour exprimer V.

C'est donc pour pouvoir considérer le produit de ces 2 probabilités comme étant lui-même une probabilité qu'il est nécessaire qu'il y ait cette indépendance mutuelle entre les cas et les témoins, condition que notre ancienne conseillère scientifique à l'Agence du médicament considérait comme fausse … On a vu sur des exemples réelles ce qui peut se produire quand elle n'est pas suffisamment réalisée : des signaux très forts s'évanouissent !

On constate aussi que l'erreur originelle ne se situe pas au niveau des auteurs des études mais au niveau de ceux qui en ont conçu les principes ou en assurent la diffusion et la formation. Ils alignent des formules en oubliant totalement leurs conditions de validité ...

 

En calcul de probabilités l'indépendance de 2 évènements A et B se traduit par :

P(A et B)=P(A)xP(B)

P(A) désignant la probabilité de réalisation de l'évènement A. De même pour des évènements A1, A2, A3, A4 où l'indépendance de ces 4 évènements se traduira par :

P(A1 et A2 et A3 et A4)=P(A1)xP(A2)xP(A3)xP(A4)

Tous les épidémiologistes répondraient sans doute qu'ils connaissent ces formules. Je n'en doute pas mais encore faudrait-il en comprendre l'importance pratique et passer à la mise en œuvre. Dans mon enseignement aux étudiants je n'oubliais jamais d'écrire tout cela et de souligner l'importance de l'indépendance pour pouvoir utiliser ces formules. Je suis obligé de constater que les formateurs en épidémiologie se montrent très laxistes sur ces conditions supposées comme allant de soi. C'est de l'écriture automatique de formules, en aucun cas des mathématiques. Je l'ai déjà dit :

 

Les maths commencent quand on recherche et tient compte

des conditions de validité des calculs, pas avant, c'est essentiel !

 

Voici une application numérique page 13 :

 

On voit clairement (du moins pour un œil exercé !) l'importance des conditions d'indépendance qui s'expriment sur les produits pour que ceux-ci puissent représenter la probabilité voulue :

On voit donc que les 3 conditions d'indépendance (cas, témoins et mutuelle) sont présentes tout au long des calculs d'une régression logistique. Elles sont donc absolument fondamentales mais ont été totalement oubliée. C'est grave, très grave :

 

Dans l'avion vaccinal il y a des milliards de passagers,

il ne faudrait quand même pas l'oublier tout en prétendant vouloir le piloter

sans avoir jamais de comptes à rendre aux populations

 

Raison de plus pour étouffer le problème diront certains ou pour l'écraser (le problème ou celui qui le soulève ?), oubliant que ce sont d'abord les passagers qui s'écrasent. Il y a des souffrances indicibles derrière cette façon cavalière et inacceptable à tout point de vue de traiter des questions de calculs de probabilités. J’ai enseigné le calcul des probabilités pendant plus de 25 ans et les tests statistiques pendant 20 ans à des milliers d’étudiants, j’ai construit des dizaines de sujets d’examen et des centaines d’exercices, je suis effaré de devoir faire un tel constat. Je ne peux pas ne pas le dire.

Par ailleurs, peut-on s'affranchir de la condition binomiale imposant que tous les pi soient égaux pour les cas à une même probabilité p et pour les témoins à une même probabilité p' afin de tester l'égalité p=p' ?

J'ai déjà répondu à cette question. Comme pour la régression linéaire, les calculs peuvent se faire pratiquement sans restrictions de ce point de vue. Mais pour l'intérêt pratique et la fiabilité des résultats obtenus c'est autre chose. Il ne suffit pas de faire un ajustement pour que celui-ci soit automatiquement de bonne qualité si les données ne le permettent pas. On le constate avec la régression linéaire dont la qualité peut s'apprécier par le coefficient de corrélation. S'il est mauvais, il nous invite à chercher autre chose. Il serait peut-être possible de proposer l'équivalent en régression logistique en comparant des variances ? A défaut j'avais proposé un semi-indicateur en comparant avec les résultats obtenus sans ajustement.

Quand l'estimation des probabilités d'avoir été exposé à la vaccination hépatite B varie entre 25% et 82% selon les classes d'âge et les régions (données Tardieu 2007) il ne paraît pas possible d'accepter l'ajustement comme valable. Ce seul constat devrait évidemment orienter vers la réalisation de partitions judicieuses pour réduire des écarts aussi énormes. C'est pourquoi le résultat du test global ayant la vaccination comme facteur d'exposition doit être considéré comme non valable.

Il faut le dire et le redire, ce n'est pas de l'agressivité, pas un seul test de la publication 2007 ne résiste aux critères purement mathématiques pointés dans mes propos, indépendamment de toutes autres considérations sur la collecte des cas ou des témoins. Ce sera sans doute dur à entendre pour certains mais il faut en passer par là si l'épidémiologie veut avancer sur ces questions.

ADDITIF (non envoyé dans la contribution n°9) Voir pour cela la contribution n° 10 

N° 10  http://questionvaccins.canalblog.com/archives/2016/04/29/33737022.html

Dès l'introduction on trouve cette mise en garde (copie d'écran) :

La mise en garde est donc "Les conclusions ... sont en partie conditionnées par le bien-fondée des hypothèses faites..." et qu'ainsi l'auteur a accompli sa tâche de ce point de vue. Mais qu'en reste-t-il en pratique ? Personne de s'occupe de ces restrictions, personne ... ce qui est la preuve qu'il manque quelque chose d'essentiel dans la formation. J'ai suffisamment enseigné pour savoir qu'au minimum il faudrait que ces conditions soient souvent rappelées dans la suite du texte. La linéarité ou l'absence d'interaction entre les Xi pourraient peut-être correspondre, dans la situation qui nous occupe, aux hypothèses d'indépendance dont j'ai rappelé la nécessité mais en voulant d'emblée trop généraliser plus personne ne comprend, même les choses les plus simples.

 D'ailleurs la très classique formule de la loi binomiale est présentée ici comme la vraisemblance V d'un échantillon, ce qui ne la dispense pas pour autant des conditions d'indépendance entre les événements considérés. On constate qu'en pratique personne ne s'en préoccupe ce qui conduit à des scènes dignes des Schadocks : les auteurs se livrent (par le relai d'un logiciel quand même ...) à des calculs complexes de régression logistique conditionnelle* dans des conditions où les tests cas-témoins ne sont absolument pas valables,  qu'on peut le voir presque instantanément et qu'il suffit de 2 nombres pour trouver un signal très fort  (62 cas sur 4 ans contre 12 sur 2 ans)  !!! De l'autre côté de l'Atlantique on fait encore plus ridicule avec Langer Gould qui teste en réalité la répartition des vaccinations dans le temps aux Etats Unis en croyant tester si un vaccin quelconque pourrait provoquer des atteintes démyélinisantes !!!

Pour terminer, on juge l'arbre à ses fruits, alors  je le répète et j'insiste pour ceux qui douteraient encore, sur le fait que la force de ce que j'affirme est attestée par la disparition de signaux indiscutables quand on teste en cas-témoins même après avoir fait une régression logistique conditionnelle (voir mes contributions n°1 et n°2).

*La régression logistique conditionnelle est décrite page 73 et suivantes. Page 74 on peut lire "On montre que pour calculer la vraisemblance de l'échantillon en tenant compte de la non indépendance des observations, il faut : ..."

Cette phrase et les calculs qui suivent  laissent croire qu'on peut ainsi s'affranchir totalement des hypothèses d'indépendance. Il n'en est rien bien sûr, ce serait trop facile ! Quand les écarts par rapport à l'indépendance sont trop importants la correction ne peut plus les corriger. C'est ce qui se produit avec les 476 témoins sur 4 ans contre 102 sur 2 ans dans la publication Tardieu. C'est encore plus fort  dans la publication Langer Gould avec 804 témoins sur la première année qui suit la dernière vaccination pratiquée contre 588 pour les 2 années suivantes cumulées alors que l'indépendance stricte demanderait qu'il y en ait 2 fois plus sur ces 2 années !

Autant essayer de traverser le Grand Canyon avec une échelle appuyée sur les 2 rives, on ne pourra que se retrouver au fond du canyon avec l'échelle d'ajustement autour du cou ! C'est ce qui se produit dans ces exemples. En ajustement linéaire on démontre aussi que la meilleure droite ajustant un nuage de point du plan s'obtient d'une façon parfaitement définie. On démontre ... Mais cette meilleure droite peut être une très mauvaise droite sans aucun intérêt. On introduit le coefficient de corrélation linéaire qui permet d'apprécier la qualité de cet ajustement. S'il est mauvais on est invité à chercher autre chose. Il n'y a pas l'équivalent en régression logistique mais ce n'est pas une raison pour passer outre.