Contribution n°4 au rapport Gradation des études épidémiologiques sur les vaccinations

 

Dans mes premières contributions au rapport Gradation* j'avais présenté des exemples indiscutables qui révèlent l'existence de très gros problèmes concernant les études cas-témoins, tout particulièrement quand elles sont appliquées aux vaccinations en raison du calendrier vaccinal qui organise celles-ci en classes d'âge se succédant au pas cadencé comme un défilé militaire (voir les contributions n°1 et n°2)*. Comme je l'ai montré, cela peut tuer l'aléatoire nécessaire pour maintenir une indépendance suffisante entre l'exposition des cas et de leurs témoins associés et neutraliser des signaux forts.

*Les précédentes contributions :

N°1 : http://questionvaccins.canalblog.com/archives/2016/03/18/33532611.html

N°2 et 3 : http://questionvaccins.canalblog.com/archives/2016/03/28/33580870.html

 

"Je reprends la publication Tardieu 2007 sur la sclérose en plaques chez les enfants [3]. Le test général portant sur 143 cas et 1122 témoins donne OR=1,10 et IC [0,71 1,69]. Il n'est donc pas du tout significatif. Mais il a testé quoi ? Ici le facteur d'exposition est ''avoir été vacciné avant l'apparition de la maladie'', ce qui est très différent des tests sur des délais où le facteur d'exposition est de la forme ''la maladie est apparue dans l'année qui a suivi la vaccination''.

Pour les liens voir la N°1

 Ce qu'il faut tester :

Peut-on accepter que la probabilité pour chaque cas d'avoir été vacciné soit égale à la probabilité pour chaque témoin de l'avoir été ?

 

Mais le risque existe de tester en réalité que la probabilité de trouver un vacciné parmi les cas soit statistiquement égale à la probabilité de trouver un vacciné parmi les témoins. Ce n'est pas la même formulation et elles ne sont pas toujours équivalentes. Il faudra donc être très vigilant !

Il n'y aura pas de difficulté de ce point de vue si les cas et les témoins retenus peuvent être considérés comme issus de tirages binomiaux B(143 ; p) et B(1122 ; p') où p et p' sont, pour les cas et les témoins, leurs probabilités d'avoir été vaccinés. On teste alors l'hypothèse p=p'. Mais si les cas ou les témoins ne sont pas du tout issus de tirages binomiaux, ce sera une tout autre histoire, le test global pouvant être non valable comme on va le voir.

 

Pour les classes d'âges impliquées dans cette étude, les évaluations de la probabilité d'avoir été vaccinées varient entre 25% et 82%. Dans ces conditions on doit se demander ce que l'égalité acceptée par le test pourrait vouloir dire.

L'interrogation très légitime sur cette question importante semble être bloquée, pour une part, par le fait que les auteurs utilisent un ajustement par une régression logistique conditionnelle. Ce vocabulaire impressionnant apparaît comme la baguette magique devant apporter une réponse fiable à la question posée sans qu'il soit nécessaire d'approfondir davantage, ce qui ne fait qu'épaissir le mystère au lieu de l'éclairer.

 

Un exemple simple :

C'est un exemple fabriqué, une simulation en quel que sorte. Les pilotes d'avions passent beaucoup de temps sur des simulateurs de vol. La sécurité aérienne est à ce prix. Il faudrait certainement que les épidémiologistes travaillent aussi sur des situations simulées. En voici une :

 

100 garçons ont été atteints de SEP dont 70 vaccinés. On leur associe 100 témoins dont 30 étaient vaccinés. Avec OR=5,44 le test sera clairement orienté ''vaccin dangereux'' . 100 filles étaient aussi atteintes par la SEP dont 30 vaccinées. On leur a associé 100 témoins dont 70 étaient vaccinées. Avec OR=0,18 le test sera tout aussi clairement orienté ''vaccin protecteur''.

Si on cumule les données on obtient 200 cas de SEP dont 100 étaient vaccinés. De même pour les 200 témoins vaccinés. Avec OR=1 on constate que les 2 signaux s'évanouissent totalement en se neutralisant car orientés en sens opposés.

Peut-on croire que les 2 signaux réapparaitraient si on pouvait réaliser sur les données globales un ajustement sur le sexe par régression logistique conditionnelle ? Ce sera évidemment impossible puisqu'il faudrait 2 odds ratio pour décrire la situation. De plus, sur les données globales il n'y a aucune raison pour qu'il y ait un signal d'un côté plutôt que de l'autre. Ce doit être très clair : si on ne dissocie pas les données en 2 groupes, garçons et filles, il sera impossible de mettre les problèmes en évidence quels que soient les ajustements que l'on pourrait mettre en œuvre.

 

Une analogie

Chacun sait qu'un ajustement de données par une régression linéaire (poids-taille par exemple) s'apprécie par le coefficient de corrélation linéaire qui est une note sur la qualité de cet ajustement. Si la note est mauvaise on est invité à chercher autre chose, une autre famille de courbes ou une partition. Ce terme est neutre, il ne signifie nullement que les données auraient été ''ajustées'' au sens d'un artisan ébéniste comme je crains que certains le comprennent. Si les données ne sont pas du tout linéaires, l'ajustement linéaire n'y changera rien. On cherche seulement la meilleure droite (ou la moins mauvaise) ajustant les données en un certain sens (celui des ''moindres carrés'' : la somme des carrés des distances des points à la droite est minimale).

Il en va de même pour tous les ajustements. L'ajustement utilisé dans les études cas-témoins est un ajustement binomiale. Si la répartition des données n'est pas du tout binomiale, l'ajustement n'y pourra rien. Il faudrait pouvoir apprécier la qualité de cet ajustement comme on le fait avec le coefficient de corrélation linéaire. Et chercher autre chose si la note était mauvaise.

 

Ces exemples pourraient être suffisants pour comprendre la nécessité d'effectuer des dissociations judicieuses. On peut cependant préciser le processus mathématique. Sur le premier exemple les 200 cas sont le cumul de 2 lois binomiales B(100 ; p1) et B(100 ; p2) où p1 et p2 sont les probabilités d'avoir été vaccinés pour les garçons et pour les filles. Pour leurs 200 témoins associés ce seront les binomiales B(100 ; p'1) et B(100 ; p'2).

Quand on cumule les données on considère en fait les lois binomiales B(200 ; [100p1+100p2]/200) et B(200 ; [100p'1+100p'2]/200). Le test sur les données cumulées conduit à accepter l'égalité des probabilités c'est à dire : [100p1+100p2]/200=[100p'1+100p'2]/200 se réduisant ici à p1+p2=p'1+p'2 qui ne permet pas d'en déduire p1=p'1 ni p2=p'2 (p1 et p'2 sont estimées sur l'observation par 70% , p2 et p'1 par 30%).

En fait on dispose d'une équation pour 4 inconnues, c'est un peu court et aucun ajustement ne pourra compenser un tel déficit d'informations ni de tels écarts, bien évidemment !

Conclusion :

 

Des partitions judicieuses doivent primer les ajustements

 

 

Supposons maintenant qu'il y ait 2 fois plus de filles que de garçons soit 200 filles dont 60 avec une SEP (pour conserver les proportions), leurs 200 témoins ayant 140 vaccinées. Les données cumulées donneront 300 cas dont 130 vaccinés contre 300 témoins dont 170 vaccinés donnant OR=0,585 avec une probabilité associée 1/2000 très significative côté ''vaccin protecteur''.

Si c'était l'inverse avec 200 garçons atteints de SEP dont 140 vaccinés associés à 200 témoins dont 60 vaccinés soit 170 vaccinés parmi les 300 enfants avec SEP contre 130 vaccinés parmi les 300 témoins, on aurait OR=1,71 avec la même probabilité associée 1/2000 mais côté ''vaccin dangereux''.

On constate que le groupe le plus nombreux impose sa loi à l'ensemble.

 

Les données Tardieu 2007 montrent que parmi les enfants ayant débuté leur première atteinte démyélinisante avant 10 ans, 25% avaient été vaccinés (contre l'hépatite B) ainsi que 27% de leurs témoins. Dans le groupe complémentaire il y avait 69% de vaccinés parmi les cas contre 67% de leurs témoins. Mais une telle dissociation (non traitée par les auteurs) n'est pas suffisante car on sait que les classes d'âge vaccinées en sixième dans les collèges l'avaient été à 75-80% alors que c'était environ 45% pour les adolescents. Le 67% chez les témoins n'est donc qu'une moyenne entre des proportions très différentes. Aucun ajustement ne sauraitcompenser de tels écarts. Il fallait donc très certainement constituer 3 groupes avant de procéder aux ajustements.

 

De plus, en raison de la barrière à 16 ans, il est a priori vraisemblable que le groupe des adolescents (ceux vaccinés à l'adolescence) est orienté ''vaccin protecteur'' en raison d'une sous notification de cas. J'avais déjà mis en évidence le signal très fort du déficit de cas pour les années 5 et 6 après la vaccination (62 cas pour les 4 premières années contre 12 les 2 années suivantes). Voici une autre indication en faveur de cette hypothèse. Il s'agit du nombre de SEP apparues dans les 3 années qui suivent la vaccination par Engerix ou Genhevac ou au delà de ces 3 années  :

 

SEP

Cas < 3 ans

Cas > 3 ans

Engerix

25

25

Genhevac

15

7

 

On constate que pour Engerix la répartition est égale selon les délais alors qu'elle est déficitaire au delà de 3 ans pour Genhevac. Cette différence de répartition entre les 2 vaccins devrait pouvoir s'expliquer par la vaccination dans les collèges. On sait qu'elle fut pratiquée avec Engerix* qui a eu ainsi plus d'opportunités que Genhevac pour avoir des cas au delà de 3 ans.

 

  • Cette campagne a duré 4 années scolaires à partir d'octobre 1994 jusqu'à juin 1998. Pour la dernière année le changement de ministre a permis aux autres vaccins d'être aussi utilisés, du moins autant que je puisse le savoir.

     

On peut aussi noter que le groupe trouvé significatif sur la SEP et publié en 2008 était caractérisé en particulier par ''vaccinés Engerix'' et ''au delà de 3 ans''. Avec ce tableau, on peut comprendre comment ces 2 critères ont pu favoriser l'obtention d'un groupe significatif. Les auteurs et les différents Comités qui ont publié des avis sur ce résultat significatif ont envisagé des raisons biologiques liées aux différences de fabrication des 2 vaccins (culture cellulaire ou sur ovaire de hamster chinois). Ils n'ont pas envisagé la raison la plus simple et la plus vraisemblable pour expliquer cette différence entre les 2 vaccins : la campagne spécifique dans les collèges avec Engerix.

 

Un résultat significatif (ou non) résulte de calculs sur des nombres

sur lesquels on a projeté des lois de probabilités.

Il y a donc une raison numérique au résultat obtenu.

Il est très important de la rechercher.

Elle sera alors une aide précieuse pour l'interprétation.

 

 

On peut généraliser les situations précédemment décrites avec n1+n2 cas gérés par les binomiales B(n1 p1) et B(n2 p2). Aux n1 cas on associe n'1 témoins suivant la loi B(n'1 p'1) et de même pour les n2 cas associés à n'2 témoins de loi B(n'2 p'2). Un test non significatif validera l'égalité

(n1p1+n2p2)/(n1+n2) =(n'1p'1+n'2p'2)/(n'1+n'2)

où les pi sont des valeurs théoriques. On a ainsi une équation pour 4 inconnues p1, p2, p'1 et p'2. Il sera donc impossible d'en déduire p1=p'1 et p2=p'2.

On a vu aussi sur le second exemple qu'on peut changer complètement le résultat et obtenir un test très significatif en modifiant le rapport n1/n2 (et donc aussi n'1/n'2) sans modifier les pi. Pour la sclérose en plaques on a généralement 2 fois plus de filles que de garçons. Ce n'est donc pas une situation artificielle. On peut donner un exemple simple et amusant avec une histoire de choux :

 

Un panier de 10 choux contient 3 choux bio à 2€ et 7 choux pas bio à 1€. Prix moyen du chou, 1,30€. Un autre panier contient 7 choux bio à 2€ et 3 à 1€. Prix moyen 1,70€.

Ce basant sur le prix moyen, chacun pourrait croire que les choux du second panier sont beaucoup plus chers que ceux du premier alors qu'ils sont exactement aux mêmes prix. Une réduction de 10% sur les prix des choux du second panier mettrait le prix moyen à 1,53€ pouvant nous faire croire qu'ils sont plus chers que ceux du premier alors qu'ils sont 10% moins chers !!!

 

De façon plus formelle la formule donnant le prix moyen des choux est

(n1p1+n2p2)/(n1+n2)

n1 et n2 sont les nombres de choux, p1 et p2 leurs prix. On peut aisément concevoir qu'on pourra obtenir le même prix moyen avec de multiples valeurs pour p1 et p2 ou changer le prix moyen en modifiant le rapport n1/n2 sans changer p1 et p2.

 

Au congrès de Tours il y a eu une communication [2] qui correspond à ce problème de moyenne (session SC27). Son titre :

« La moyenne de la satisfaction peut ne pas refléter la satisfaction »

Avec ces commentaires  [1]  (voir les diapos) :

« Le plus souvent, l’indicateur retenu, quel que soit le questionnaire, est la satisfaction moyenne. Or, il est possible de concevoir que la moyenne n’est qu’une façon de résumer la satisfaction, à côté des taux de très satisfaits ou très insatisfaits. »

 

« le plus mauvais indicateur de satisfaction est le taux global de satisfaction »

« La moyenne de la satisfaction n’est pas nécessairement un indicateur stable »

« Mais que signifie la moyenne et représente-t-elle correctement

l’insatisfaction et la forte satisfaction ? »

C'est exactement ce qu'on obtient avec des choux bio et pas bio dont les prix ne changent pas mais dont le prix moyen est changée par la seule modification du rapport n1/n2.

 

Ces exemples en apparence très différents ont tous en commun la même formule exprimant la moyenne de 2 moyennes (ou plus), les difficultés apparaissant quand elles sont très dispersées. C'est un vrai problème très préoccupant dans les études épidémiologiques, y compris les études cas-témoins. Oui, aussi curieux que cela puisse paraître, il y a des points communs entre mon histoire de choux et les études cas-témoins.

Conclusion :

Une moyenne fluctuante devrait faire rechercher une dispersion importantes des données

 

Exemple : Il n'a pas été possible d'attribuer à la vaccination BCG une efficacité stable. Cela pourrait s'expliquer par le fait que son efficacité est sans doute très différente selon qu'il s'agit d'une population à haut risque (si l'enfant est contaminé, il le sera par une importante charge bacillaire) ou d'une population faiblement exposée où les contaminations se feront avec une charge bacillaire beaucoup plus faible. L'efficacité du BCG a toute chance d'être très différente dans les deux situations. Cela avait été démontré autrefois par de nombreuses expériences sur des bovins.

Si, d'une étude à l'autre, la proportion d'enfants à haut risque change de façon significative, les résultats de ces études pourront diverger même si l'efficacité du BCG reste inchangée, chez les fortement exposés comme chez les faiblement exposés mais différentes bien sûr.

 

Rapport sur la gradation

Il mentionne l’hétérogénéité des données. On peut penser que cela pourrait correspondre aux situations décrites ici.

Page 17

« Quatre critères permettent d’évaluer l’hétérogénéité :

les résultats sont très variables selon les études ou au sein d’une étude ;

les résultats sont discordants selon les sous-groupes ;

les intervalles de confiance des études ne se chevauchent pas ;

l’écart entre les différents résultats obtenus est important.

 

L’hétérogénéité peut être évaluée de manière statistique en fonction de la valeur de p (p≥0,05 : test non significatif) ou de manière visuelle... »

 

Effectivement, avec les données 2008 on peut constater que le groupe des ADC non SEP est significatif côté ''vaccin protecteur'' (OR=0,73 ; probabilité 2,0%). Mais les auteurs n'ont pas testé …

Par contre, ils ont testé près d'une vingtaine de sous-groupes selon les délais pour lesquels il y a un signal fort sur 4 ans mais impossible à obtenir en cas-témoins …

 

Si les auteurs avaient testé le groupe des classes d'âge vaccinées au collège ainsi que le groupe des classes d'âge vaccinées plus âgées, il est fort probable qu'ils auraient trouvé 2 groupes nettement orientés en sens opposées, voire significatifs. Ils ne l'ont malheureusement pas fait...

Si, si, si …

On constate qu'il y a des problèmes importants à régler avant d'envisager que ces critères très généraux puissent être mis en œuvre de façon efficace et sûre.

Remarque :

Les différences entre le critère 1 et le critère 4 ne me paraissent pas évidentes. Pour moi ils disent la même chose avec d'autres mots. Le critère 2 ne fait qu'expliciter certains résultats particuliers classables aussi dans les critères 1 ou 4. Quant au critère 3, j'en ai déjà parlé, il ne vaut rien sous cette forme. Il tente d'expliciter ce qu'il convient de voir sur les tests pour conclure à des "résultats très variables ", "des résultats discordants" ou "des écarts importants entre les résultats". C'est vraiment se payer avec des mots ...

 

Suite de mes contributions :

 N°5 :  N°5 La force des recommandations vaccinales : un critère sans véritable signification ? 

  N° 6 et 7  http://questionvaccins.canalblog.com/archives/2016/03/28/33582686.html

N° 8  http://questionvaccins.canalblog.com/archives/2016/04/09/33643161.html

N°9  http://questionvaccins.canalblog.com/archives/2016/04/13/33660052.html

N°10 http://questionvaccins.canalblog.com/archives/2016/04/29/33737022.html

 

[1] diaporama http://www.sfsp.fr/manifestations/congres2015/donnees/som_session/diaporamas/SC27-GERBAUD.pdf

 [2] http://www.sfsp.fr/manifestations/congres2015/donnees/fs_tout_session.htm SC 27 méthodes et outils en santé publique

 [3] Publication Mikaeloff-Tardieu http://archpedi.jamanetwork.com/article.aspx?articleid=571612