Résultat faussement positif dû au hasard

est il possible d'accepter une décision basée sur ce résultat est il possible d'accepter que ce résultat ne soit pas dû au hasard $

1. Généralités

Un résultat d’essai thérapeutique peut montrer le bénéfice du traitement par erreur, uniquement du fait du hasard. Avec un traitement en réalité sans effet, les fluctuations aléatoires d’échantillonnage peuvent faire apparaître une différence entre les 2 groupes de l’essai thérapeutique qui pourrait être prise, à tort, pour l’effet du traitement.

Note - résultat faux positif

Un résultat d’essai faussement positif (faux positif) est un résultat qui semble montrer le bénéfice du traitement (une différence de mortalité entre les 2 groupes par exemple) mais cela faussement car le traitement est en réalité sans effet. Les résultats faux positifs proviennent de deux grandes causes : les biais et le hasard.

Il existe aussi la possibilité d’avoir un résultat faussement négatif, c'est-à-dire ne concluant pas à l’efficacité d’un traitement qui pourtant en réalité est efficace.

En lecture critique, seul le risque de résultat faux positif est considéré car ces 2 risques ne sont symétriques. Le plus redouté pour la décision médicale est celui de faux positif. Car une fois qu’un traitement est accepté comme étant efficace, il ne sera plus possible de revenir en arrière. En effet, à partir de ce moment, il ne devient plus possible de faire un nouvel essai avec ce traitement qui est considéré comme efficace. Il ne sera pas possible de récupérer l’erreur initiale.

Par contre un faux négatif ne conduit pas à l’adoption du nouveau traitement. Cela peut être aussi gênant car cela prive le patient d’une ressource thérapeutique qui pourrait leur apporter un bénéfice. Mais cette erreur est récupérable car dans cette situation il est toujours possible de faire un nouvel essai. Et cette problématique n'est plus une problématique de décision médicale ou de santé publique, mais concerne les développeurs du traitement.

En lecture critique, la première question à se poser est celle de la possibilité que le résultat positif que l’on est en train de considérer soit un pur produit du hasard et qu’en réalité, le traitement n’est pas efficace.

1.1. Le test statistique et la "p value"

En pratique, il convient donc, avant d’accepter un résultat d’essai en faveur de l’efficacité du traitement, de s’assurer que ce résultat « positif » ne soit pas, en réalité, un résultat faux positif dû au hasard. L’outil à notre disposition pour faire ce diagnostic est simplement le test statistique et la valeur de p. En fait le risque de résultat faux positif est le risque d’erreur statistique alpha qui est le concept central du test statistique et de la signification statistique. Ainsi une différence statistiquement significative nous autorise à conclure à l’existence de l’efficacité du traitement car le risque alpha de faux positif est faible (<5% en général) et que l’on consent à prendre ce risque car on l’estime peu probable.

Ainsi quand le test statistique rattaché au résultat en considération est statistiquement significatif, on considère que le risque alpha est faible, acceptable dans notre prise de décision et qu’il est possible d’accepter la positivité du résultat. Cependant l’obtention d’un p statistiquement significatif n’est pas suffisant par lui-même pour raisonnablement écarter la possibilité d’un résultat faux positif. Encore faut-il pouvoir écarter une situation d’inflation du risque alpha induite par une multiplicité des comparaisons statistiques non gérée.

Note - le risque alpha

Un résultat d’essai thérapeutique peut montrer le bénéfice du traitement par erreur, uniquement du fait du hasard. Ainsi, avec un traitement en réalité sans effet, les fluctuations aléatoires d’échantillonnage peuvent faire apparaître une différence entre les 2 groupes de l’essai thérapeutique qui sera prise, à tort, pour l’effet du traitement.

Ainsi quand le test statistique rattaché au résultat considéré est statistiquement significatif, on considère que le risque alpha est faible et qu’il est possible d’accepter la positivité du résultat. Il est possible d’écarter, raisonnablement avec un risque (probabilité) d’erreur résiduelle de moins de 5%, la possibilité que le résultat soit un faux positif du au hasard.

Cependant l’obtention d’un p statistiquement significatif n’est pas suffisant pour formellement écarter la possibilité d’un résultat faux positif. Encore faut-il pouvoir écarter une situation d’inflation du risque alpha induite par une multiplicité statistique non gérée.

L’inflation du risque alpha survient quand on a la possibilité de faire la même conclusion sur l’efficacité du traitement à partir de plusieurs tests statistiques. A partir du moment, où à partir de plusieurs tests, on conclu à l’efficacité du traitement quand au moins l’un d’entre eux est signification, le risque de conclure à tort à l’efficacité du traitement est bien plus important que 5%. En effet, dans cette démarche on consent un risque de 5% de conclure à tort à partir du 1er test effectué, puis à nouveau 5% sur le deuxième, etc. jusqu’à l’obtention d’un test significatif pris alors comme démonstration de l’efficacité. En effet, avec un traitement sans effet, si l’on réalise 100 tests statistique (en multipliant les critères de jugement par exemple), 5 d’entre eux seront statistiquement significatif par définition puisque chaque test à un risque de 5% de permettre de conclure à tort à l’effet du traitement. 5% pour chaque test cela fait en moyenne 5 tests positifs à tort. Ainsi, avec tout traitement sans effet, il sera possible d’avoir au moins un test significatif si l’on a multiplie les comparaisons statistique (à partir de 20 tests il est quasi certain d’avoir au moins un p significatif sur l’ensemble).

risque alpha et test statistique

1.2. L'inflation du risque alpha

TODO Reformulation du problème de la signification stat dans le n contexte de la multiplicité

Est-ce que le résultat est suffisamment probant pour faire reposer la décision de recommander le traitement sur lui (sans courir trope de risque de prendre cette décision à tort)

L’inflation du risque alpha survient quand on a la possibilité de faire la même conclusion sur l’intérêt du traitement à partir de plusieurs tests statistiques. Par exemple, pouvoir conclure à un quelconque intérêt du traitement à partir de plusieurs critères de jugements. À partir du moment, où, à partir de plusieurs tests, on conclu à l’efficacité du traitement quand au moins l’un d’entre eux est signification, le risque de conclure à tort à l’efficacité du traitement est bien plus important que 5%. En effet, dans cette démarche on consent un risque de 5% de conclure à tort à partir du 1er test effectué, puis à nouveau 5% sur le deuxième, etc. jusqu’à l’obtention d’un test significatif pris alors comme démonstration de l’efficacité. En effet, avec un traitement sans effet, si l’on réalise 100 tests statistiques (en multipliant les critères de jugement par exemple), 5 d’entre eux seront statistiquement significatifs par définition puisque chaque test à un risque de 5% de permettre de conclure à tort à l’effet du traitement. Ainsi, avec tout traitement sans effet, il sera possible d’avoir au moins un test significatif si l’on a multiplie les comparaisons statistique (à partir de 20 tests il est quasi certain d’avoir au moins un p significatif sur l’ensemble).

Note - : inflation du risque alpha

En l’absence d’inflation du risque alpha, un résultat statistiquement significative permet de considérer, avec un risque minime et parfaitement contrôlé, que le résultat n’est probablement pas un faux positif du au hasard. En effet un p<0.05 signifie que, si en réalité le traitement n’a pas d’effet, l’essai avait moins de 5% de chance d’obtenir une différence entre les 2 groupes au moins aussi importante que celle qui est observée. De ce fait il est considéré que le résultat n’est probablement pas un faux positif. Cette déduction n’est pas certaine à 100%. Il reste toujours un risque d’erreur résiduel quand on accepte l’efficacité du traitement à partir d’un résultat statistiquement significatif. En effet, un test significatif ne nous assure pas que le risque alpha est nul mais simplement qu’il est contrôlé et suffisamment petit (<5% si un tel seuil de signification a été choisi au protocole) pour que l’on puisse accepter de prendre ce risque de conclure à tort.

Encore faut-il que ce risque soit réellement inférieur à 5% et non pas supérieur. En effet, un p<0.05 ne correspond pas forcément à une prise de risque contrôlée si ce petit p a été obtenu dans un contexte de multiplicité des comparaisons. Dans ce cas il y a inflation du risque alpha.

En effet, si pour prendre la décision de dire que le traitement présente un intérêt, nous avons à notre disposition le résultat de multiples comparaisons statistiques (par exemple en raison de multiples critères de jugement dans l’essai), le risque global de conclure à tort à l’intérêt de ce traitement à partir de n’importe laquelle de ces comparaisons va être bien plus important que le risque habituellement consentie de 5%. Car on va prendre un risque de 5% de conclure à tort à l’intérêt du traitement sur chacune de ces comparaisons et ces prises de risque vont donc se cumuler. Par exemple, s’il y a 100 critères de jugement, nous en auront 5 de significatif même si le traitement n’a aucun effet (les 5% de faux positif acceptée par définition d’un risque alpha à 5%). Ainsi, si l’on a la possibilité de choisir la comparaison qui nous arrange pour conclure à l’efficacité du traitement, il y en aura presque toujours une de significative (si les critères ne sont pas trop corrélés), même si le traitement n’a aucun effet, à partir du moment où plusieurs comparaisons s’offrent à nous. Le nombre de résultats significatifs augmente avec le nombre de comparaisons disponibles. On dit que l’on va à la « pêche à la ligne ».

Pour que le contrôle du risque alpha de faux positif soit efficace il faut que la décision de conclure à l’intérêt du traitement ne puisse se faire qu’à partir d’une seule et unique comparaison, définie a priori ou qu’une méthode statistique de contrôle de l’inflation du risque alpha ai été mise en oeuvre (méthode séquentielle hiérarchique, ajustement du seuil de la signification statistique par la méthode Bonferroni,, etc.. cf. section ???).

Dans l’essai thérapeutique, les situations qui peuvent engendrer une multiplicité des comparaisons si aucune mesure adaptée n’est prise, sont les suivantes :

Multiplicité des critères de jugements sans critère de jugement principal défini a priori (ou sans recours à une méthode séquentielle hiérarchique ou à un ajustement du seuil de la signification)

Réalisation d’analyse en sous-groupe pour chercher un sous-groupe de patients permettant de conclure à l’intérêt du traitement

Réalisation d’analyse intermédiaire sans méthode statistique adaptée

Mesures répétées du critère de jugement au cours du suivi des patients

Multiplicités des bras de traitement (plusieurs doses du même traitement par exemple)

multiplicité des comparaisons et inflation du risque alpha

1.3. démarche hypothetico déductive et cohérence externe du résultat

Deux autres problématiques peuvent être rattachées à celle des résultats faussement positifs : celle de la cohérence externe du résultat et celle du respect de la démarche hypothético déductive.

La cohérence externe d’un résultat est assurée lorsque celui-ci est confirmé par d’autres études. L’outil d’exploration de la cohérence externe est la méta-analyse. En méta-analyse, la cohérence externe se traduit par l’absence d’hétérogénéité entre les études signifiant que le résultat est bien retrouvé à l’identique dans toutes études disponibles. A l’inverse, la méta permet d’identifier un résultat artefactuel ou dû au hasard, en montrant que ce résultat est différents de ceux obtenus par les autres essais. (cf. fiche concept cohérence externe).

Le respect de la démarche hypothético est indispensable pour assurer la validité scientifique du résultat. Le résultat correspond à une hypothèse formulée avant la réalisation de l’étude et qui était l’objet de l’étude. Ainsi le résultat est le reflet de la confrontation à la réalité de cette hypothèse, confrontation qui va confirmer ou infirmer cette hypothèse. Dans ce cas l’essai était un essai de confirmation (« confirmatory study ») s’inscrivant dans une démarche déductive. A l’inverse, les résultats obtenus en dehors de l’hypothèse de l’essai n’ont que peu de valeur car ils sont purement exploratoires car produit par une démarche inductive. Ce sont des résultats post-hoc qui demande à être confirmés par une étude prospective spécialement conçu pour cela. Cf. fiche concept sur la démarche hypothetico déductive.

2. Situation où il est possible d’exclure que le résultat soit un faux positif dû au hasard

Le risque que ce résultat soit faussement positif dû au hasard peut être raisonnablement écarté. En effet, ce résultat est statistiquement significatif (à un seuil de signification au plus égal à 5%) et il n’y a pas eu de multiplicité des comparaisons dans la recherche de ce résultat. De ce fait il n’y a pas eu d’inflation du risque alpha. On peut donc considérer que le risque alpha de conclure à tort à l’intérêt du traitement à partir de ce résultat est parfaitement contrôlé et inférieur à 2.5% (5% en bilatéral, voir fiche concept test unilatéral/bilatéral). En effet, les tests réalisés dans les essais thérapeutiques sont bilatéraux mais un seul côté de cette bilatéralité (la supériorité du nouveau traitement versus le control) conduit à la conclusion de l’intérêt du traitement. Le risque alpha consentie sur cette conclusion est donc de 2.5% (pour un test bilatéral de 5%). Il est ainsi acceptable. Une inflation du risque alpha, qui conduirait à un risque de conclure à tort à l’intérêt du traitement bien supérieur à 5% et donc inacceptable, est écartée car il n’y a eu de multiple possibilité pour trouver un résultat significatif en faveur de cet intérêt.

L’absence d’inflation du risque alpha est assurée car :

Ce résultat a été obtenu sur le critère de jugement principal défini a priori ou par une autre méthode garantissant l’absence d’inflation du risque alpha en cas d’utilisation de critère de jugement multiple (« co-primary endpoint ») : méthode séquentielle hiérarchique, ajustement du seuil de la signification (par la méthode de Bonferroni, Hochberg) par répartition du risque alpha global entre les co-critères de jugement primaires, etc..

Ce résultat n’est pas obtenu dans un sous groupe de patient mais bien au niveau de la population de l’essai toute entière ; ou une méthode de contrôle du risque alpha a été utilisée si ce résultat correspond à une sous population de l’essai (méthode séquentielle hiérarchique)

Ce résultat n’est pas issu d’une analyse intermédiaire réalisée sans protection contre l’inflation du risque alpha (cf. fiche concept analyses intermédiaires)

Ce résultat n’est pas issu d’un essai multibras sans prise en compte de la multiplicité engendrée

3. Situation où il n’est pas possible d’exclure que le résultat soit un faux positif dû au hasard

Il n’est pas possible d’écarter la possibilité que le résultat soit un faux positif dû au hasard car il n’y a pas eu de contrôle strict du risque alpha en raison d’une multiplication des comparaisons effectuées à la recherche de l’intérêt du traitement (entraînant une inflation du risque alpha). De ce fait il est impossible de prendre le risque de conclure à l’intérêt du traitement à partir de ce résultat, même si le p est inférieur à 5%, car le risque de faire cette conclusion à tort (erreur statistique alpha) est trop important (cf. supra) et il est supérieur au 5% bilatéral / 2.5% unilatéral habituellement consenti.

L’inflation du risque alpha peut provenir de plusieurs situations :

Le résultat n’a pas été obtenu sur le critère de jugement principal de l’étude mais sur un critère de jugement secondaire ; ou il n’y a pas eu de définition d’un critère de jugement principal

Le résultat a été obtenu dans une démarche séquentielle hiérarchique après un test non significatif. De ce fait, bien que le p nominal obtenu sur ce résultat soit inférieur à 5% il n’est pas possible de considérer que ce résultat est statistiquement significatif (cf. fiche concept)

Le résultat a été obtenu sur un co-critère de jugement principal (co-primary endpoint) mais avec un p, bien qu’inférieur à 5%, qui est néanmoins supérieur au seuil de la signification ajusté pour prendre en compte la multiplicité des critères primaires.

Le résultat a été obtenu sur un sous groupe (le fait que le sous groupe soit défini a priori au protocole n’empêche pas l’inflation du risque alpha. C’est éventuellement la condition préliminaire indispensable pour mettre en œuvre un ajustement de la signification statistique, mais, en soit, cette mention n’empêche pas l’inflation du risque alpha. Idem au fait que l’essai soit significatif sur tous les patients)

Le résultat a été obtenu lors d’une analyse intermédiaire non prévue ou non protégée contre l’inflation du risque alpha

4. Résultat montrant un surcroît d'effets indésirables, risque de faux positif

Le résultat montre un surcroît d’événements indésirables (défaut de sécurité). Compte tenu des conséquences potentielles graves d’un défaut de sécurité, ce type de résultat n’a pas besoin d’être démontré formellement pour être pris en considération. Un résultat seulement suggéré est suffisant pour s’interroger sur un éventuel effet délétère et faire comme si cet effet était démontré. De plus, ce type de résultat n'est pas en mesure de conduire à une adoption à tort du traitement mais à son rejet. Il n'y a donc pas de crainte particulière liée à un résultat faussement positif. Ainsi, dans le domaine de la sécurité, le principe de précaution prévaut et il n'est pas nécessaire d'obtenir une démonstration formelle pour décider.

Avec le principe de précaution, la logique d’interprétation change et l’accent n’est plus mis sur le contrôle du risque de faux positif (conclure à tort à l’existence de l’effet) mais bien sur celui du risque de faux négatif (ne pas mettre en évidence à tort un effet indésirable). On accepte de conclure à tort à un défaut de sécurité car le risque d’utiliser à tort un traitement non sûr est considéré comme non acceptable. Si le nouveau traitement était comparé à un traitement actif, ce type de résultat signifie une moindre sécurité du nouveau traitement par rapport au précédent. Cela correspond à un défaut de sécurité du nouveau traitement par rapport à la meilleure option actuellement possible.

Les conséquences de la suspicion ou de la démonstration d’un surcroît d’un événement indésirables varient en fonction du contexte et de l’existence ou non d’un bénéfice à mettre en regard.

La mise en évidence d’un surcroît d’événements indésirables peut ne pas être rédhibitoire si, en regard, le traitement apporte un bénéfice sur des événements de même gravité que celle de l’événement indésirable induit. Tout dépend de l’existence ou non d’un bénéfice clinique net favorable (cf. section ???). Par contre si aucun bénéfice n’existe en regard de ce surcroît d’événement indésirable (sur des évènements de même gravité que les évènements indésirable), l’intérêt thérapeutique du traitement évalué est inexistant. L’intérêt thérapeutique sera aussi remis en cause si un bénéfice existe ne débouchant sur un bénéfice clinique favorable (cf. section a???). Dans ce, le surcroît d’événements indésirables viens contrebalancer complètement le bénéfice apporté par le traitement.

× ATTENTION - Ce site est un prototype proposé uniquement comme démonstrateur du concept. Ce document est un brouillon inachevé présent uniquement pour tester la cohérence technique du prototype. Merci de votre compréhension.