Accueil > Sommaire > Démonstration de l’efficacité

1 Introduction

La méta-analyse occupe une place centrale dans le processus d’établissement des preuves de l’efficacité clinique d’un traitement[1, 2]. Elle représente le dernier stade de la démonstration de l’efficacité et permet une formalisation de la représentation des connaissances [3]. Ce chapitre explicite la notion de « démonstration de l’efficacité » et décrit la place qu’occupe la méta-analyse dans cette démarche de formalisation.

Différents stades existent dans la démonstration de l’efficacité d’un traitement, créant ainsi une hiérarchie qui peut s’apparenter à une échelle de niveau de preuve. Il est ainsi possible de délimiter des situations où l’efficacité peut être considérée comme formellement démontrée, de celles où les données sont nettement insuffisantes et de celles, intermédiaires, où il convient de discuter avant de prendre une décision thérapeutique.

2 Méta-analyse concluante et au moins un essai concluant par lui-même

La situation où la méta-analyse est concluante avec au moins un essai concluant par lui-même est la plus probante et permet de considérer que l’efficacité est formellement démontrée.

La situation la plus probante est celle où la méta-analyse est concluante et contient au moins un essai correctement conçu et réalisé et concluant par lui-même (cf. encart). Cet essai montre un bénéfice statistiquement significatif sur son critère de jugement principal qui est un critère clinique pertinent. La méta-analyse regroupant cet essai et les autres du domaine est elle aussi concluante. Elle confirme le résultat de l’essai et valide la cohérence externe du domaine. Son apport est indispensable car la force de conviction d’un seul résultat isolé est limitée.

Critères de définition d’un essai concluant

· essai contrôlé randomisé,

· correctement conçu, sans biais potentiel,

· correctement réalisé, sans biais apparent,

· analyse en intention de traiter,

· utilisant comme critère de jugement principal un critère clinique pertinent,

· résultat statistiquement significatif sur le critère de jugement principal

En regroupant tous les essais réalisés, qu’ils soient en faveur ou contre l’existence de l’efficacité, la méta-analyse fait le bilan de l’existant, et vérifie que l’essai concluant, avancé pour justifier l’efficacité, n’est pas une aberration, due au hasard ou à un biais.

Dans le cas où l’essai concluant est le seul essai réalisé, le processus méta-analytique met ce fait en évidence et attire l’attention sur l’absence de vérification de ce résultat. À l’opposé, il peut exister non pas un seul mais plusieurs essais concluant par eux-mêmes. Le degré de conviction de la preuve de l’efficacité s’en trouve augmentée.

La méta-analyse permet aussi d’explorer la possibilité d’un biais de publication qui ferait que l’essai concluant est le produit d’un processus de sélection par les résultats et ne représente pas la réalité. Pour récuser l’existence d’un biais de publication, la méta-analyse utilise la recherche exhaustive des essais publiés et non publiés, le graphique en « entonnoir » (« funnel plot ») et le calcul de la robustesse du résultat [4].

Elle permet aussi de rechercher la variabilité de l’efficacité du traitement entre les essais et de détecter les situations où une éventuelle interaction biologique pourrait être suspectée (analyse en sous-groupe, méta-régression). La recherche de l’hétérogénéité est importante pour s’assurer que le résultat de l’essai concluant n’est pas dû à une situation où le traitement développe une efficacité particulièrement importante, non retrouvée dans les autres situations. En pratique, les difficultés rencontrées sont les suivantes. :

· Il est difficile de conclure formellement à l’absence d’un biais de publication en raison de la faible puissance de sa recherche dans la plupart des cas.

· La recherche d’une hétérogénéité est souvent de faible puissance statistique. Il est rarement possible d’exclure formellement une variation de l’effet même après l’utilisation de méthodes statistiques complexes. La conclusion est qu’il n’a pas été possible de mettre en évidence une hétérogénéité. Dans ce cas, selon le paradoxe de Stein, l’estimation globale est la meilleure estimation de l’effet du traitement pour chaque type de patients [5, 6].

Classiquement, il a été dit qu’il était nécessaire de disposer de deux essais significatifs pour conclure à l’efficacité. L’existence d’un deuxième essai permet une vérification externe du premier résultat et diminue le risque d’erreur alpha globale. Ce principe semblait être exigé au niveau des instances réglementaires bien qu’il soit impossible de trouver une trace écrite officielle de cela. Cette règle tend à ne plus être respectée dans plusieurs domaines où les essais nécessitent un très grand nombre de sujets. C’est par exemple le cas avec les essais de mortalité à la phase aiguë de l’infarctus qui regroupent plusieurs milliers de patients. La duplication de ce type d’essai est financièrement très difficile. Le principe, selon lequel tout résultat expérimental doit être vérifié par au moins une autre expérience, conduit à un certain nombre de difficultés en évaluation des traitements. En effet, il est parfois difficile, une fois qu’un essai correctement conçu et réalisé, a conclu à l’efficacité du traitement, d’en refaire un uniquement dans un but de vérification. Cela pose des problèmes éthiques et financiers. Cependant, dans certains cas, de nouveaux essais sont encore nécessaires, même après un essai concluant pour convaincre une opinion médicale réticente. Cela fut le cas avec la fibrinolyse à la phase aiguë de l’infarctus du myocarde. L’essai ISIS2 a continué à se dérouler après que l’essai GISSI 1 a montré une réduction de mortalité. Les craintes du corps médical étaient telles que la continuation de l’essai a permis d’habituer les médecins à ce traitement. En réalité, d’autres essais sont très souvent disponibles aux côtés d’un essai concluant car ils ont été entrepris simultanément ou avant lui. L’essai suffisamment puissant intervenant en fin de développement, après la réalisation d’essais de plus petite taille documentant plutôt des critères intermédiaires mais pour lesquels les critères cliniques sont aussi disponibles. D’autres possibilités conduisent à la coexistence de plusieurs essais dans le même domaine : réalisation d’essais dans des populations différentes, ou avec différentes molécules de la même classe pharmacologique. Le regroupement de ces essais permet une certaine vérification des résultats, mais pose le problème de l’effet de classe ou de l’hétérogénéité clinique des populations.

3 Méta-analyse concluante sans aucun essai concluant

La situation où seule la méta-analyse est concluante sans qu’il existe un essai concluant par lui même est moins convaincante.

Une position raisonnable consiste à admettre que le résultat de la méta-analyse n'est pas suffisant pour démontrer formellement l’efficacité et qu'il est nécessaire de le confirmer par un essai thérapeutique suffisamment puissant (sauf si de nouveaux essais s'avèrent totalement impossibles).

Cette attitude prudente trouve une justification dans les faits observés, par exemple, avec les dérivés nitrés utilisés à la phase aiguë de l'infarctus du myocarde. Une méta-analyse de petits essais laissait prévoir une réduction possible de la mortalité [7]. Des essais de grandes tailles ont été lancés pour la confirmer (ESPRIM [8], ISIS 4[9], et GISSI 3[10]). Ces trois essais n'ont pas confirmé la réduction de la mortalité. Un autre exemple est celui du magnésium dans la même pathologie (cf. chapitre La méta-analyse). Ces exemples étayent donc le principe énoncé ci-dessus, même si dans la majorité des cas les essais de grandes tailles ont confirmé les méta-analyses.

4 Autres situations

Une situation où il existe un essai concluant, mais où la méta-analyse n’est pas concluante révèle le plus souvent une hétérogénéité qui demande à être expliquée avant de pouvoir conclure (cf. section sur la validité externe). Le résultat de l’essai concluant n’est pas concordant avec les résultats des autres essais.

Il aussi possible de rencontrer des cas où le résultat de la méta-analyse est non significatif mais sans qu’il y est d’hétérogénéité. Cette situation qui pourrait paraître paradoxale traduit simplement le fait que l’essai concluant est probablement la manifestation du risque α de 5 % et que son résultat favorable soit le fait du hasard

Tableau 1 – Récapitulatif des différents niveaux possibles de démonstration de l’effet.

Démonstration de l’effet

w Méta-analyse concluante sans hétérogénéité et existence d’un essai concluant.

Effet suggéré mais non démontré

w Méta-analyse montrant un effet statistiquement significatif mais absence d’essai concluant.

w Essai concluant mais la méta-analyse ne retrouve pas l’effet de manière statistiquement significative.

w Essai concluant mais méta-analyse hétérogène.

Preuves insuffisantes

w Absence d’effet statistiquement significatif dans la méta-analyse et absence d’essai concluant.

5 Conclusion à l’absence d’efficacité

Ne pas mettre en évidence l’efficacité n’autorise pas à conclure à l’absence de l’efficacité.

La démonstration formelle de l’absence d’efficacité est difficile à obtenir et fait appel à une méthodologie spécifique (cf. essai d’équivalence). Ne pas mettre en évidence l’efficacité n’autorise pas à conclure à l’absence de l’efficacité. Il peut simplement s’agir d’un manque de puissance et de l’impossibilité de démontrer l’absence d’effet au moyen de l’instrument utilisé. Ainsi un essai non significatif ou une méta-analyse non significative ne permettent pas de conclure, formellement, à l’inefficacité du traitement.

5.1 Principe

Au point de vue statistique la démonstration de l’efficacité nulle est impossible à obtenir. Tout au plus il est possible de démontrer que l’efficacité est insuffisante dans une démarche type essais d’équivalence ou de non infériorité.

Le principe de cette démarche est le suivant. L’efficacité d’un traitement est jugée insuffisante lorsqu’il est fortement probable qu’elle soit inférieure à la plus petite efficacité intéressante dans le domaine.

Le raisonnement se base sur l’analyse des intervalles de confiance. Lorsque la borne la plus favorable de l’intervalle de confiance de l’effet du traitement est en dessous du seuil d’effet minimal intéressant, il est possible de conclure que l’efficacité du traitement est insuffisante. Cette conclusion se fait avec un risque statistique de première espèce alpha contrôlé (α/2 pour un intervalle à (1-α)100% ).

La conclusion formelle à l’absence d’efficacité nécessiterait un essai de non-infériorité spécialement réalisé pour tester l’hypothèse d’absence d’efficacité. Cette éventualité n’est pas envisageable en pratique. Ainsi, il n’est jamais possible de conclure en toute rigueur à l’absence d’effet.

La Figure 1 représente deux types de résultats non significatifs d’interprétation différente.

· Le traitement n’entraîne pas de modification relative de la mortalité RRR=0% avec un IC95% de [4% ;-4%]. Ce résultat n’est pas significatif (p=0,95). Au mieux, il pourrait exister une réduction très faible de 4% qui ne présente aucun intérêt en pratique. Bien qu’en toute rigueur il ne soit pas possible de conclure à l’absence d’efficacité, l’interprétation de l’intervalle de confiance conduit à conclure que (très probablement) ce traitement serait d’aucune utilité en pratique. Étant donné la précision du résultat, il est licite de conclure à l’absence d’intérêt de ce traitement : même si celui-ci a une efficacité non nulle, la taille de l’effet serait trop petite pour être intéressante.

· Le traitement entraîne une réduction relative non significative de 20% (IC à 95% de [39%,-8%]) (p=0,16). Il apparaît clairement que ce résultat non significatif n’autorise pas à conclure à l’absence d’effet. En effet, ce résultat est compatible avec une réduction relative de 39%, effet de taille conséquente. De plus l’intervalle est en très grande partie du côté favorable ce qui renforce la possibilité de l’existence de l’effet. En conclusion, il est possible que le traitement soit efficace et que cette efficacité soit suffisamment importante pour être intéressante. Ce résultat encourage à réaliser un nouvel essai de puissance appropriée.

5.2 Seuil

La détermination de l’efficacité minimale intéressante est un point délicat. Ce choix est arbitraire et conditionne la conclusion, mais le problème est moins aigu que dans le cadre de la démonstration de l’équivalence car le choix erroné ne se traduit pas par les mêmes pertes de chance pour le patient. Pour l’équivalence, la décision est d’utiliser un traitement à la place d’un autre et le risque couru est que le traitement finalement recommandé soit nettement moins efficace que le précédent.

La conclusion d’une efficacité insuffisante n’entraînera pas de perte de chance directe pour les patients. Un bénéfice minimal intéressant trop petit ne permet pas de conclure à tort à une efficacité insuffisante. Mais le traitement ne sera pas utilisé pour autant en pratique car il n’a pas démontré son efficacité. Au pire de nouveaux essais seront entrepris pour rien.

Figure 1 – Deux types de résultats non significatifs d’interprétation différente. Dans le cas A, l’intervalle de confiance est étroit. En toute rigueur il n’est pas possible d’exclure que l’effet du traitement soit non nul (partie de l’intervalle inférieure à 1), mais même dans la situation la plus favorable l’effet serait de très petit taille et sans intérêt en pratique. Il est donc raisonnable de conclure à l’absence d’efficacité. En B, l’intervalle est très large et il est compatible avec des efficacités très importantes. Il n’est pas possible de conclure à l’absence d’effet et il convient donc de réaliser un nouvel essai de puissance suffisante pour préciser l’effet du traitement.

Un bénéfice minimal intéressant trop grand peut conduire à rejeter un traitement dont l’efficacité est faible mais quand même intéressante. Dans cette situation, le développement est arrêté prématurément à tort. Le problème n’est pas de nature statistique. C’est le choix du bénéfice minimum intéressant qui est déterminant.

5.3 Intérêt de la méta-analyse dans cette situation

La méta-analyse est irremplaçable, voire indispensable, pour assoir la conclusion d’une efficacité insuffisante. Elle fournit la puissance statistique maximale et donc l’intervalle de confiance le plus petit possible.

5.4 Conclusion

Au total, la conclusion d’efficacité insuffisante est possible quand :

· il existe au moins un essai suffisamment puissant et correctement conçu et réalisé avec comme critère principal un critère clinique pertinent (et un calcul de puissance pour ce critère) non concluant,

· la méta-analyse incluant cet essai conduit à un intervalle de confiance qui exclut une efficacité du traitement au moins égale à l’efficacité minimale intéressante,

· il n’existe pas d’hétérogénéité.

En l’absence d’un essai suffisamment puissant avec un critère principal clinique, une conclusion d’efficacité insuffisante à partir uniquement d’une méta-analyse est moins probante. Les essais de la méta-analyse étaient peut être biaisés vers zéro en raison par exemple d’un recueil des critères cliniques peu fiable. En effet, l’analyse des critères cliniques ne faisait pas partie des objectifs des essais sélectionnés. Les procédures mises en œuvre ne permettent pas alors de garantir la qualité des données.

Cependant, en pratique, si la méta-analyse conduit à un intervalle de confiance très petit il sera difficile d’argumenter la réalisation d’un essai puissant. Même si aucune conclusion formelle d’efficacité insuffisante ne pourra être prononcée, le résultat sera le même : le traitement ne sera pas utilisé en pratique, et que l’on puisse affirmer ou non l’efficacité insuffisante sera sans grand intérêt.

Dans les comparaisons contre placebo, le recours à l’essai de non-infériorité pour montrer l’absence d’effet du traitement étudié n’est pas concevable. Il n’est pas réaliste d’investir dans un essai dont l’objectif serait de montrer qu’un traitement n’a pas d’efficacité ! La conclusion à l’absence d’effet d’un traitement ne peut donc être prise que dans le cadre de l’analyse d’essais négatifs. L’utilisation de la méta-analyse et des intervalles de confiances sont d’une grande aide dans cette démarche comme le montre l’exemple suivant de la vitamine E.

Exemple

La vitamine E a été envisagée dans la prévention des événements cardiovasculaires en raison de ses propriétés antioxydantes.

Cinq essais de bonne qualité méthodologique (randomisation imprévisible, explicitation du critère de jugement et du calcul de l’effectif, très faible taux de perdus de vue, analyse en intention de traiter) sont disponibles : ATBC bras vitamine E, HOPE, GISSI prevention, CHAOS, PPP. Ces essais ont comparé au placebo ou à l’absence de traitement des doses variables de vitamine E.

Dans la méta-analyse de ces essais, aucune modification n’est observée ni sur la mortalité cardio-vasculaire (RR=0,99, IC95%=[0,92 ;1,06]) ni sur la mortalité totale (RR=1,00 ; IC95%=[0,95 ;1,05]), ni sur la fréquence des événements cardiovasculaires mortels ou non mortels (infarctus, AVC) (RR=0,98 ; IC95%=[0,93 ;1,02]).

La précision élevée de ces résultats autorise à conclure à l’absence d’efficacité. En effet, au mieux, la vitamine E apporterait des bénéfices très minimes : réduction de 8% de la mortalité cardiovasculaire, de 5 % de la mortalité totale, etc. Ces valeurs sont sans intérêt clinique. Il est donc possible d’écarter définitivement ce traitement dans cette indication.

6 Absence de données

Certaines situations, au demeurant fort nombreuses, n’ont fait l’objet d’aucun essai thérapeutique sur critères cliniques. Aucun argument suffisamment consistant permet de justifier l’efficacité de ces traitements. Les essais disponibles sont souvent des essais de petite taille et utilisant un critère intermédiaire. Ces essais n’ont même pas recueilli les événements cliniques, si bien qu’il est impossible de réaliser une méta-analyse sur le critère pertinent. L’efficacité réelle de ces traitements est inconnue. Elle est tout au plus suspectée à partir d’éléments physiopathologiques et pharmacologiques, mais reste non démontrée tant que les essais appropriés ne sont pas réalisés.

7 Bibliographie

1. Cucherat M. La méta-analyse des essais thérapeutiques [Thèse]. Lyon: Université Lyon-1; 2000.

2. Boissel JP, Cucherat M, Gueyffier F. Place de la méta-analyse dans la définition de la population cible d'une thérapeutique. Thérapie 1997;52:19-28. PMID:

3. Cucherat M. Représentation et gestion de la connaissance en médecine factuelle. Med Hyg 2000;58:1427-30. PMID:

4. Cucherat M, Boissel JP, Leizorovicz A, Haugh M. EasyMA: a program for the meta-analysis of clinical trials. Computer Methods and Programs in Biomedecine 1997;53:187-190. PMID:

5. Robbins H. An emperical Bayes approach to statistics. In: Proceeding of the 3rd Berkeley Symposium on Mathematical Statistics and Probability; 1955; 1955. p. 157-164.

6. Casella G. An introduction to emperical Bayes data analysis. American Statistician 1985;39:83-87. PMID:

7. Woods KL. Mega-trials and management of acute myocardial infarction. Lancet 1995;346:611-614. PMID:

8. European Study of Prevention of Infarct with Molsidomine (ESPRIM) Group. The ESPRIM trial: short term treatment of acute myocardial infarction with molsidomine. Lancet 1994;344:91-97. PMID:

9. ISIS-4 (Fourth International Study of Infarct Survival) Collaborative Group. ISIS-4: a randomised factorial trial assessing early oral captopril, oral mononitrate, and intravenous magnesium sulphate in 58050 patients with suspected myocardial infarction. Lancet 1995;345:669-685. PMID:

10. Gruppo Italiano per lo Studio dell Streptochinasi nell'Infarto Miocardico (GISSI). GISSI 3: effects of lisinopril and transdermal glyceryl trinitrate singly and together on 6-week mortality and ventricular function after myocardial infraction. Lancet 1994;343:1115-1122. PMID:

Interprétation des essais cliniques pour la pratique médicale

www.spc.univ-lyon1.fr/polycop

Michel Cucherat

Faculté de Médecine Lyon - Laennec

Mis à jour : aout 2009