Les critères scientifiques de démonstration de l’efficacité des traitements
Accueil
> Sommaire
> Les critères scientifiques de démonstration
La nécessité de disposer de preuves de l’efficacité clinique d’un traitement étant posée, apparaît alors le problème de définir ce qu’est une preuve fiable du bénéfice clinique apporté par un traitement. Cette analyse permettra d’en déduire les critères scientifiques de l’efficacité clinique des traitements.
Les arguments avancés comme des preuves doivent
être d’un haut niveau de fiabilité car de nombreux facteurs
favorisent l’apparition et la sélection des faux positifs. Les
intérêts en jeux font que dès qu’un
« argument » favorable est disponible, même
s’il s’agit d’un artefact, et donc d’un résultat
erroné, cet « argument » sera retenu et
avancé par les promoteurs du traitement. Si aucune précaution
n’est prise, des « arguments » seront disponibles
même pour des traitements sans efficacité. Les
intérêts en jeu conduisent à la mise en avant des arguments
faussement en faveur de l’efficacité et à la mise sous
silence des arguments contre l’efficacité même si ces
derniers sont le reflet de
Un argument positif doit toujours être considéré comme douteux car on sait que, si un argument faussement positif apparaît par hasard, il sera utilisé et mis en avant. Dans ce contexte, seul les arguments d’un haut niveau de fiabilité sont probants. Ceux moins robustes et potentiellement sujet aux erreurs (biais) ne sont pas convaincants car rien ne permet d’exclure qu’ils sont positifs à tort.
Les essais explicatifs sont des essais thérapeutiques entrepris pour tester des hypothèses cognitives sans finalité thérapeutique directe. Ce sont, par exemple, des essais réalisés pour connaître les mécanismes d’actions des traitements, avant d’envisager leur utilisation en thérapeutique ou pour expliquer a posteriori leur efficacité. L’objectif de ces essais est seulement d’enrichir nos connaissances fondamentales, connaissances qui dans un second temps peuvent déboucher sur la réalisation d’essais pragmatiques à la recherche des preuves de l’intérêt de l’utilisation d’un traitement [1].
Les essais explicatifs (« explanatory trial ») impliquent en général le recueil de nombreuses d’informations sur un petit nombre de patients. Les essais pragmatiques (« pragmatic trial ») sont conduits sur un grand nombre de patients en focalisant le recueil d’information sur les critères correspondant à l’objectif thérapeutique. Les principes d’interprétation qui sont présentés dans cet ouvrage ne concernent que les essais pragmatiques (ou les essais qui ont une finalité pragmatique) et non pas les essais explicatifs dont l’analyse repose en partie sur d’autres critères.
Les essais pragmatiques peuvent intégrer une composante explicative, tandis que le contraire n’est pas possible.
Classiquement on distingue l’efficacité (« efficacy ») du bénéfice clinique (« effectiveness »). L’efficacité peut être définie comme l’effet du traitement sur les processus biologiques, son aptitude à modifier l’état ou le devenir de phénomènes biologiques. Efficacité clinique a plus trait aux conséquences du traitement sur l’état global du patient et intègre plus volontiers les deux dimensions efficacité et sécurité. Le bénéfice clinique ou l’efficacité clinique sont synonymes. Le bénéfice clinique est en rapport direct avec l’objectif thérapeutique envisagé. Lorsque le traitement s’accompagne d’effets délétères ou d’effets indésirables sérieux, l’effet obtenu au niveau de l’objectif thérapeutique doit être pondéré par ces effets négatifs. Le mieux est de disposer dans ce cas-là d’un critère qui intègre à la fois les effets positifs et les effets négatifs.
En fait, cette distinction est celle qui se retrouve entre critères de jugement cliniques et critères intermédiaires, et entre essai explicatif et essai pragmatique [2]. L’efficacité proprement dite se mesure plutôt avec les critères intermédiaires dans des essais de nature explicative. Le bénéfice clinique repose sur les critères cliniques et sa mesure fait appel à des essais pragmatiques.
Les conceptions ont évolué depuis ces dernières années. L’accent est de plus en plus mis sur l’évaluation de l’efficacité clinique des traitements et sur la nécessité de réaliser des essais pragmatiques pour guider la pratique médicale [3].
L'impérative nécessité de disposer de preuves solides de l'efficacité d'un traitement étant posée, surgit la question de savoir comment les obtenir. Cette quête est semée d'embûches, et il convient de se protéger contre plusieurs phénomènes pouvant conduire à des conclusions erronées, c'est-à-dire à de fausses preuves. Si ces pièges ne sont pas évités, ou le sont de façon insuffisante, il existe un risque d'avancer des arguments erronés comme preuve de l'existence d'une efficacité qui en réalité n'existe pas. Ces pièges sont les nombreux et divers :
· les limites du raisonnement théorique basées sur la physiopathologie,
· la variabilité biologique et les risques statistiques,
· les facteurs de confusion et les biais,
· la sélection des arguments en fonction des résultats,
· le biais de publication.
S’il n’est pas protégé contre ces sources potentielles d'erreur, un argument en faveur de l'efficacité ne présente pas un niveau de fiabilité suffisante pour constituer une preuve [4]. Il est susceptible d’être biaisé par de nombreux phénomènes.
Quelles sont donc les qualités que doivent posséder les arguments en faveur de l'efficacité pour être acceptés comme des preuves suffisamment fiables ?
L’utilisation d’un traitement pour une pathologie donnée peut être justifiée de plusieurs manières. Une première approche, traditionnelle, consiste à justifier le traitement par son mécanisme d’action. A partir de la connaissance de la physiopathologie de la maladie et des actions pharmacologiques du traitement, il est possible d’élaborer un raisonnement théorique mécaniste qui laisse présager un bénéfice thérapeutique.
Malgré l'importance de nos connaissances fondamentales, celles-ci restent parcellaires et les raisonnements théoriques spéculatifs. Toutes ces raisons font que les déductions faites à ce niveau ne peuvent garantir l'exactitude du raisonnement et de ses conclusions (le traitement est efficace). Il existe de nombreux exemples où ce type de raisonnement a été pris en défaut et où les prédictions du modèle mécaniste n’ont pas été confirmées dans un essai clinique. Le plus fréquemment un traitement prédit comme efficace s’est avéré sans effet, mais avec parfois, chose plus gênante, la révélation d’un effet délétère.
Ce type de raisonnement n’est évidemment pas strictement théorique. Il se fonde sur des résultats expérimentaux documentant chacune de ces étapes. C’est la combinaison des arguments qui est spéculative comme l’est, par voie de conséquence, l’effet induit. À l’expérience, cette approche apparaît d’une fiabilité imparfaite.
L’essai clinique est une confrontation à la réalité des hypothèses du raisonnement théorique. Son résultat, lorsque l’essai est correctement conçu et réalisé, mesure en conditions réelles le bénéfice apporté par le traitement. Il permet de démontrer que l’utilisation d’un traitement s’accompagne bien d’un bénéfice réel.
Avec certaines limites, ce procédé s'apparente au processus de réfutation et corroboration Poppérienne. Le raisonnement sur les mécanismes d'action est de nature inductive. A partir d'un énoncé singulier : « le traitement a tel effet pharmacologique », il induit un fait plus global : « le traitement apporte un bénéfice clinique ». Des épistémologues, comme Hume et Popper, ont montré les limites de l'induction. Par contre, la vérification de l'hypothèse réalisée par l'essai thérapeutique est de nature déductive et permet de manière fiable de rejeter ou de corroborer l'hypothèse de l'efficacité.
Par exemple, les antiarrythmiques de classe 1 ont été prescrits après infarctus du myocarde en cas d’extrasystolie ventriculaire pour prévenir la mort subite. La valeur péjorative des extra systoles ventriculaires fréquentes est bien documentée. De même, les antiarrythmiques de classe 1 ont montré qu’ils diminuaient fortement la fréquence des extra systoles. De ce fait, il semblait logique de penser que l’utilisation de ces traitements devait diminuer la mortalité par mort subite. Ces traitements furent utilisés en pratique pendant de nombreuses années, leur usage étant uniquement justifié par ce raisonnement théorique. Ce n’est quand 1991 que l’essai CAST a évalué quels étaient les résultats réellement produits sur la mortalité (tableau 1) [5].
Les résultats de cet essai furent à l’opposé de ce qui était attendu. Au lieu de confirmer la réduction de mortalité pressentie, il mettait en évidence un doublement de celle-ci. On a pu calculer que la pratique d’utilisation non fondées sur des preuves cliniques de ces médicaments auraient entraîné aux États-Unis au moins autant de décès que les guerres de Corée et du Vietnam [6].
Tableau 1 – Résultats de l’essai CAST de prévention de la mort subite après infarctus par les antiarrythmiques de classe 1.
|
DC / n |
mortalité |
groupe antiarrythmiques |
39 / 432 |
9% |
groupe contrôle |
18 / 423 |
4% |
RR=2,13, p=0,0004 |
Une explication fut rapidement avancée faisant intervenir les effets proarrythmogènes et inotropes négatifs des antiarrythmiques de classe 1. Ces effets pour lesquels il été possible de proposer un mécanisme physiopathologique n’avaient pas été pris en compte dans l’élaboration du modèle thérapeutique théorique alors qu’ils étaient connus. On touche là une limitation des modèles thérapeutiques discursifs : la difficulté de prendre en compte des effets délétères à cause de l’absence d’intégration des aspects quantitatifs de la connaissance.
De très nombreux autres
exemples existent comme ceux : des inotropes positifs dans
l’insuffisance cardiaque (cf. encadré ci dessous), du traitement
hormonal substitutif de la ménopause [7], de
En fait tous les médicaments dont le développement a été arrêté lors des essais cliniques de phases 3 constituent un exemple où les hypothèses physiopathologiques n’ont pas été confirmées. Dans d’autre cas, les essais thérapeutiques ont mis en évidence un bénéfice clinique apporté par des traitements pour lesquels les raisonnements théoriques n’en prédisaient pas. C’est par exemple le cas des bêta-bloquants dans l’insuffisance cardiaque (cf. encadré) ou des statines dans la prévention des AVC.
Les connaissances sur les mécanismes d’actions sont indispensables pour la recherche de nouveaux traitements, mais elles ne peuvent pas être utilisées comme preuves ultimes de l’efficacité.
Malgré ses limites, l'étude des mécanismes d'action est indispensable pour imaginer de nouveaux traitements. Cette approche est obligatoire pour rationaliser l'évaluation des traitements. En effet, la connaissance des mécanismes fondamentaux de la physiopathologie et de la pharmacologie est une voie sans égale pour la génération de nouvelles hypothèses thérapeutiques. Sans connaissance fondamentale, comment trouver de nouveaux antiagrégants plaquettaires ? Comment avoir l'idée d'utiliser des fibrinolytiques dans l'infarctus du myocarde ?
Il faut cependant être conscient de ce que dans de nombreux cas, soit les essais n'ont pas confirmé la théorie pourtant séduisante et paraissant robuste, soit après démonstration clinique de l'efficacité du traitement, un autre mécanisme d'action a été trouvé (par exemple les bêta-bloqueurs dans le post infarctus du myocarde). Ces deux points illustrent le fait que, quel que soit le haut degré de connaissances que l'on puisse atteindre sur la physiopathologie des maladies et sur les mécanismes d'action des traitements, la complexité biologique peut mettre en échec une approche purement théorique.
Exemples de mécanismes non confirmés
Vitamine E et prévention
cardiovasculaire
Une alimentation riche en vitamine E
est associée, dans les études d’observation, avec une
faible mortalité cardiovasculaire. Au niveau physiopathologique, les
propriétés antioxydantes de
Statines et AVC
Épidémiologiquement, aucune relation entre cholestérolémie et risque d’accidents vasculaires cérébraux mortels n’a été trouvée même dans la méta-analyses des études de cohortes [8]. Cependant, la méta-analyse des essais de statines montrent une réduction statistiquement significative de 31% (odds ratio=0.69, IC95%=0.57;0.83) de la fréquence des accidents vasculaires cérébraux mortels ??? [9].
Bêtabloquant dans
l’insuffisance cardiaque
Les bêtabloquants du fait de
leur propriété inotrope négative ont été
pendant longtemps contre-indiqués dans l’insuffisance cardiaque.
L’observation assez fréquente de décompensation cardiaque
consécutive à l’administration de bêta-bloquant confirme
en pratique cette induction physiopathologique. A l’opposé de ces
arguments théoriques et empiriques existait aussi d’autres
arguments physiopathologiques faisant penser que les bêta-bloquant
pourraient être bénéfiques en diminuant
l’hypersensibilité aux catécholamines adrénergiques
existante dans l’insuffisance cardiaque. Ainsi au niveau des
mécanismes physiopathologiques deux théories radicalement
opposées s’affrontaient. Elles ont pu cependant être
départagées par des essais de mortalité qui ont montrés
une réduction substantielle de mortalité apportée par les
bêtabloquants [10, 11].
Insuffisance cardiaque et
agents inotropes inhibiteurs de la phophodiestérase
D’après leurs effets pharmacologiques favorables sur des critères physiopathologiques d’ordre hémodynamique, deux produits, l’emoxinome et la vesnarinone, sont apparus comme des traitements qui devaient augmenter la survie des patients insuffisants cardiaques. Ce raisonnement théorique n’a cependant pas été confirmé lors des essais de mortalité où une surmortalité a été observée. De plus dans cet exemple, des critères assez proches de critères cliniques, comme la tolérance à l’exercice ou la qualité de vie, étaient aussi influencés de façon favorable. La seule prise en considération de ces critères qui sont déjà des critères cliniques n’aurait pas permis de mettre en évidence cette surmortalité.
Dans un essai comparant deux doses de vesnarinone, 30 et 60 mg par jour, à un placebo chez des insuffisants cardiaques sévères de classe 3 ou 4 de la NYHA, un surcroît de décès à court et long terme à été observé avec la dose de 60 mg [12]. La mortalité a été de 18,9% dans le groupe placebo et de 22,9% dans le groupe vesnarinone (risque relatif = 1,21). Dans ce même groupe, la qualité de vie (appréciée par le « Minnesota Living with Heart Failure questionnaire ») était améliorée significativement à 8 semaines et à 16 semaines, mais pas à 26 semaines. Les mêmes tendances ont été observées dans le groupe 30 mg sans qu’elles s’avèrent statistiquement significatives.
Un résultat similaire a été observé avec un essai de l’enoximone [13]. Dans huit essais contre placebo de petite taille (entre 10 et 100 patients) et de courte durée (3 à 16 semaines), l’enoximone a été associée à des améliorations statistiquement significatives de la fraction d’éjection, de la symptomatologie ou du stade NYHA, mais aussi à une amélioration de critères cliniques intermédiaires comme la tolérance à l’exercice, la durée de marche [14]. Cependant, dans un essai contre placebo incluant 151 patients souffrant d’une insuffisance cardiaque sévère, un excès de décès a été observé dans le groupe enoximone par rapport au placebo (27 vs 18 décès, p<0,05). La qualité de vie était pourtant significativement améliorée à 2 semaines ainsi qu’un score de mobilité physique après 3 mois. Ce résultat n’est pas isolé et se retrouve dans d’autres essais [15].
Cet exemple illustre une fois de plus le danger qu’il pourrait y avoir à se contenter de la démonstration d’un effet sur un critère intermédiaire physiologique, comme la fonction ventriculaire, à la place d’un essai sur le critère clinique ultime. Il montre aussi que la mise en évidence d’un bénéfice sur des critères cliniques intermédiaires, comme la tolérance à l’effort ou la durée de l’effort, n’est pas non plus suffisante.
L’expérience clinique possède des limites. Dans bon nombre de pathologies, la faible fréquence de survenue des événements et la petitesse des bénéfices attendus font qu’il est impossible de juger à partir de quelques cas de l’efficacité d’un traitement
Tout médecin a déjà fait la constatation que des patients ayant des caractéristiques identiques peuvent avoir des évolutions très différentes. Par exemple, deux patients similaires avec une hypertension artérielle auront des devenirs différents : l’un présentant un accident vasculaire cérébral très rapidement, l’autre pas. Cette variabilité non réductible, des phénomènes biologiques ne permet pas de raisonner dans un champ déterministe mais seulement en probabilité : une élévation de la pression artérielle ne détermine pas la survenue d'un AVC, elle en augmente seulement sa probabilité.
Le recours aux probabilités est nécessaire chaque fois que nos connaissances ne nous permettent pas de prédire avec une quasi certitude l’évolution du phénomène étudié comme la survenue d’un événement, la durée d’une maladie, etc. Pour pouvoir se passer des probabilités, il conviendrait d’être dans une situation où l’événement surviendrait systématiquement chez 100% des patients pris en considération. Dans cette situation hypothétique un traitement qui empêcherait ne serait-ce qu’un événement pourrait être considéré comme efficace. Il suffit cependant d’une incertitude sur le diagnostic pour que ces conditions ne soient plus réunies. Il convient alors de travailler sur des groupes.
La nécessité de raisonner en probabilité empêche de pouvoir conclure à partir de l'observation d'un seul individu. Il convient de travailler sur des groupes de patients pour pouvoir mesurer les probabilités et les variations de probabilités avec suffisamment de précision. Chez un hypertendu, la probabilité annuelle d'accidents cardiovasculaires est de 4%. Il est évident que l'observation d'un seul sujet qui présente ou pas un événement ne permet pas de savoir si le traitement a modifié ce risque.
La relative rareté des événements et la petitesse des bénéfices attendus font qu’il est impossible de juger de l’efficacité d’un traitement à partir de quelques cas isolés. En effet, est-il possible qu’un médecin perçoive l’effet de la pravastatine, qui réduit la fréquence des événements coronariens de 2,26% au bout de 5 ans (la fréquence des événements coronariens mortels et non mortels passe de 7,5% à 5,3% à 5 ans), à partir de l’observation de quelques dizaines de patients de sa clientèle qu’il aura mis sous ce traitement ?
La plupart des traitements ne font que modifier la probabilité d'événement sans l’annuler. La mise en évidence de leur efficacité ne peut donc se faire qu'à partir de groupes de patients. L'expérience empirique, que peut avoir un praticien sur une série limitée de ses patients, ne lui permet pas d'appréhender des modifications de probabilité.
L'observation de l'évolution satisfaisante de quelques patients, ne démontre pas l’efficacité. En l'absence de traitement des évolutions favorables sont aussi observées. De plus l'esprit humain a tendance à oublier les mauvaises expériences et à ne mettre en avant que les bonnes. Tous ces phénomènes concourent à fausser favorablement nos impressions subjectives sur l'efficacité jugée par l'expérience personnelle.
Bien que les impressions issues de l'expérience personnelle ne puissent pas être acceptées comme preuve de l'efficacité, elles ont de réelles conséquences psychologiques sur les prescripteurs : la réticence que peut avoir un médecin à utiliser un traitement après avoir fait l'expérience d'un événement indésirable gravissime est bien compréhensible.
Dans tous les cas où le lien de causalité est irréfutable ou quasiment irréfutable parce que la même action est toujours suivie du même effet, le recours aux probabilités est inutile. Il existe, ainsi, en médecine des situations très fortement déterministes où l’outil probabiliste n’est pas nécessaire. Montrer que le sondage vésical soulage sur le champ le patient en rétention aiguë ne nécessite pas de faire appel au raisonnement en termes de probabilité. Il en est de même pour l’effet narcotique d’un produit anesthésique. Par contre l’évaluation de la sécurité de ces deux anesthésiques retombe dans le champ du probable et nécessite l’outil statistique.
Plusieurs types d’étude de recherche clinique peuvent être envisagés a priori pour réaliser la confrontation à la réalité des hypothèses thérapeutiques. Il s’avère cependant qu’elles ne sont pas toutes équivalentes et qu’elles ne permettent pas toutes d’obtenir des preuves fiables [16] Quels sont les types d'études qui réalisent une confrontation à la réalité suffisamment fiable des hypothèses thérapeutiques ?
Toutes les études de recherches cliniques ne permettent pas d’obtenir des preuves fiables de l’efficacité des traitements.
La simple observation n'est pas suffisante car elle ne permet pas de prendre en compte les facteurs de confusion (« confounding factor ») et ses résultats sont potentiellement biaisés.
Dans un cadre observationnel, c'est-à-dire dans la vie de tous les jours, les patients qui reçoivent un traitement ne sont pas comparables à ceux qui ne le reçoivent pas. Ils diffèrent sur de nombreux points :
· ils sont plus sévèrement malades que les autres ce qui impliquera une plus morbidité chez eux
· ils sont un accès aux soins plus facile et seront donc en meilleure santé
· ils ont accès à un contexte de soin plus développés
· ils ont présenté un échec thérapeutique lors de l’administration des autres traitements
· ils ont une mauvaises tolérances aux autres traitements
Ainsi les études d'observation (« observational study ») épidémiologiques ne donnent pas suffisamment de garanties pour fournir les preuves recherchées (le domaine visé par les études d’observation n’est pas l’évaluation des thérapeutiques mais l’étude des déterminants des pathologies. Un exemple particulièrement démonstratif de ces limites est apporté par le traitement substitutif de la ménopause (cf. l’étude de cas si rapportant) ???
Les études d'observation permettent à ce niveau d’analyser des phénomènes inaccessibles à l’essai randomisé). Par contre elles sont idéales pour générer de nouvelles hypothèses. Pour la recherche d'une efficacité thérapeutique les limites des études d'observation sont énumérées dans le tableau 2.
Tableau 2 – Les limites des études d'observation pour la recherche d'une efficacité thérapeutique.
Type d’étude |
Limites |
Série de cas |
Pas de prise en considération des facteurs de confusion. |
Étude écologique |
Prise en compte insuffisante des facteurs de confusion : pas de prise en compte des différences géographiques (génomiques, environnementales, etc.). |
Étude longitudinale |
Prise en compte insuffisante des facteurs de confusion : pas de prise en compte de l’évolution séculaire de la maladie, de l’évolution de ses déterminants, de sa prise en charge, de sa prévention. |
Étude cas-témoins |
Biais d’indication. Biais de mémorisation (les sujets atteints se remémorent plus facilement les traitements qu’ils ont pris). En plus d’une prise en compte insuffisante des facteurs de confusion. |
Étude de cohortes |
Biais d’indication (les patients reçoivent ou ne reçoivent pas le traitement étudié en fonction de la gravité de leur maladie). En plus d’une prise en compte insuffisante des facteurs de confusion. |
L’épidémiologie est un outil indispensable pour étudier les conséquences et surveiller l’utilisation d’un traitement dans une population (pharmaco-épidémiologie).
Les études d’observations sont des outils conçus pour étudier les déterminants des maladies [17] (objectif pour lesquels l’essai randomisé est totalement inadapté ) et elles ne sont pas adaptées à la démonstration de l’efficacité d’un traitement.
Par contre, les études d’observation contribuent fréquemment à l’évaluation des effets indésirables des traitements, en particulier lorsque ceux-ci sont rares ou nécessitent de longue période d’exposition pour survenir mais à conditions qu’ils soient nettement distincts des événements survenant spontanément avec la maladie considérée.
La méthodologie des essais thérapeutiques a été développée pour éliminer les facteurs de confusion et les biais. Ainsi les limites de l'observation sont levées par l'essai thérapeutique.
Exemples
Beta-carotène
Un exemple des limitations des études d’observation pour la recherche des effets d’un traitement est donné par l’évaluation des effets du bêta-carotène en prévention. Les données épidémiologiques et biologiques suggèrent que le bêta-carotène, grâce à ses propriétés antioxydantes, est protecteur contre les cancers et les maladies cardiovasculaires.
Les études de cohortes montrent
que les sujets consommant le plus de bêta-carotène ont une
mortalité cardiovascualire (CV) réduite par rapport à ceux
qui en consomment le moins (réduction relative du risque de 31%, IC 95%
= [41% ; 20%], P<0.0001) [18]. L'hypothèse issue des
études d'observation que le bêta-carotène pouvait
réduire
Figure 1 – Comparaison des
résultats des études d’observation et des essais
randomisés documentant l’efficacité de
Plusieurs hypothèses sont
disponibles pour expliquer ces discordances : type de sujets différents,
doses différentes, mais surtout, et avant tout, le fait que
l’effet observé dans les études
épidémiologiques peut être dû à un facteur de
confusion [18]. Par exemple, il est possible
que la consommation de forte quantité de bêta-carotène soit
simplement un marqueur d’une plus forte préoccupation vis à
vis de
En pratique, si les prescriptions avaient suivi les résultats des études d'observation, sans attendre les résultats des essais, la pratique qui en aurait découlé, aurait eu un résultat inverse à celui recherché et auraient induit des décès.
L’histoire du bêta-carotène est d’ailleurs exemplaire. Les études d’observation ont généré une hypothèse thérapeutique qui a ensuite été testée dans des essais thérapeutiques. Finalement cette piste c’est avérée infructueuse. Dans d’autres cas, les études d’observation ont permis de découvrir des voies thérapeutiques qui se sont, ensuite, avérées très efficaces dans les essais randomisés.
Neuro stimulation et antalgie
post chirurgicale
La neuro-stimulation transcutanée donne un autre exemple de l'inadéquation des études d’observation à la démonstration de l’efficacité des traitements. La neuro-stimulation transcutanée est proposée pour le traitement, en autre, des douleurs post-opératoires. La comparaison des résultats obtenus avec ce traitement dans les essais randomisés et dans les études non randomisés (Figure 2) met en évidence le très grand risque de faux positifs des comparaisons non randomisées [23]. Les études non randomisées sont dans leur très grande majorité en faveur de l’efficacité de la neuro-stimulation avec 17 études positives sur 19 (89%). Cependant, cette efficacité n’est retrouvée que dans 2 essais randomisés parmi 17 (12%).
Figure 2 – Comparaison des résultats des essais randomisés et non randomisés dans le cadre de l’évaluation de l’effet antalgique de la neuro-stimulation transcutanée
Ces exemples ne sont pas des cas isolés. Une surestimation de l’effet par les études non randomisée a été retrouvée dans de nombreux domaines [16, 24Ê, 25Ê, 26].
Le résultat d'un seul essai répondant aux critères que nous venons de voir ne constitue cependant pas encore une preuve suffisamment fiable. En effet, malgré une méthodologie irréprochable, le résultat d'un essai unique peut encore être inexact du fait de la présence d'une erreur statistique ou d’un artefact. La nature aléatoire des phénomènes considérés implique un risque d'erreur dans la conclusion sur l'existence de l'effet du traitement qui ne peut pas être éliminé, même s'il est contrôlable grâce au test statistique. Un résultat statistiquement significatif au seuil a=5% laisse la possibilité d'une conclusion fausse dans 5% des cas. De plus, la valeur prédictive positive d’un résultat significatif est variable et dépend de la probabilité à priori de l’hypothèse testée et de la puissance de l’essai (cf. chapitre Tests statistiques).
Le résultat d’un essai peut être dû à un artefact. Même avec une méthodologie apparemment irréprochable, il n'est pas possible d'exclure avec certitude l'existence d'un biais ou l'existence de circonstances exceptionnelles conduisant à un résultat positif à tort. Seule la confirmation du résultat par au moins un autre essai permet d'éliminer ces deux possibilités. Déjà en 1983, Zelen attirait l’attention sur le fait que de nombreux éditeurs de journaux étaient opposés à publier des articles qui étaient des confirmations de résultats précédents [27]. Les essais dont le but est de confirmer un résultat antérieur ne sont pas considérés comme aussi excitants ou innovateurs que le premier report d’une avancée thérapeutique. Ce propos est à modérer actuellement. Il n’est plus exceptionnel que des revues comme The Lancet ou le New England Journal of Medicine publie simultanément dans un même numéro deux essais sur la même question (par exemple le dépistage du cancer colique par recherche de sang occulte dans les selles [28, 29] ; ou la comparaison des antibiothérapies orale versus intraveineuse dans les neutropénies des chimiothérapies anticancéreuses [30, 31]).
Il faut cependant noter qu’il existe une réticence franche dans certains domaines à dupliquer les essais. Même au niveau réglementaire, un seul essai est parfois accepté comme preuve de l’efficacité d’un traitement, surtout lorsque la démonstration demande des effectifs importants ou des durées de suivi prolongées. C’est pourtant dans ces situations où les preuves doivent être les plus solides.
Exemple
Dans le cancer colorectal métastasé, un premier essai [32] montrait la supériorité de la triple association irinotecan, fluoro-uracile et leucovorine par rapport au traitement standard fluorouracile + leucovorine en termes de régression tumorale, de survie sans progression, et même de survie totale. À la suite de cet essai, cette trithérapie a été homologuée par la FDA comme traitement de première intention dans le cancer colorectal métastasé et a été utilisée de façon standard par de nombreux cancérologues. Cependant, ces résultats extrêmement favorables, n’ont pas été retrouvés dans deux essais ultérieurs, financés par le National Cancer Institute, qui ont été rapidement arrêtés en raison d’une surmortalité [33].
Cet exemple, illustre que, même en l’absence de tout biais détectable un résultat, obtenu pourtant sur un critère « robuste » comme la mortalité, peut être spécieux et non reproductible.
La nécessité de vérifier les résultats va entraîner dans de nombreux cas une multiplication des résultats à prendre en compte avant de se déterminer sur l'efficacité du traitement. Cette multiplicité de l'information entraîne à son tour de nouvelles difficultés : comment réaliser une synthèse de résultats qui peuvent être apparemment discordants car soumis aux risques d'erreurs statistiques a et β. Ces difficultés sont résolues par la méta-analyse.
Un autre écueil à éviter dans la recherche des preuves est celui de la sélection arbitraire des essais utilisés comme argument en fonction de leurs résultats. Assez fréquemment, les synthèses réalisées sous forme de revue générale ne retiennent que les résultats positifs, donnant ainsi une impression en faveur de l'efficacité plus favorable que ce qu'elle aurait dû être après prise en compte de tous les résultats, positifs ou négatifs.
Pour éviter ce problème, les preuves d'efficacité doivent être issues d'une synthèse non arbitraire de tous les résultats d'essais, qu'ils soient en faveur ou non de l'efficacité
Un exemple de sélection arbitraire des résultats couramment avancés pour justifier l'efficacité d'un traitement est donné par le travail de Ranskov [34] réalisé sur les essais d'hypocholestérolémiants dans la prévention du risque cardiovasculaire.
En 1992, les résultats de 24 essais étaient disponibles, 14 étaient favorables à l'efficacité en prévention des hypocholestérolémiants et 10 ne l'étaient pas (résultats non statistiquement significatifs ou effet délétère). Ranskov a étudié la fréquence de citations de ces essais dans la littérature au travers des articles de synthèse, des éditoriaux, des articles de recommandation pour la pratique (tableau 3 et tableau 4).
Tableau 3 – Fréquence de citations des essais en fonction de leur résultat.
|
Nombre moyen de citations par an |
Résultats favorable (n=14) |
40 |
Résultats non favorables (n=10) |
7,4 |
Tableau 4 - Fréquence de citations dans
les années suivant la publication de deux essais publiés dans le
JAMA
Essai |
1ère |
2ème |
3ème |
4ème |
LRC (favorable) |
109 |
121 |
202 |
180 |
Miettinen (non favorable) |
6 |
5 |
3 |
0 |
Il apparaît que la fréquence de citation dépend grandement du résultat. Les essais négatifs disparaissent presque totalement de la mémoire collective.
Pour constituer une preuve fiable, une série de résultats d'essais doit être issue d'un processus de collecte non arbitraire, sélectionnant les essais sur leur caractère non-biaisé et non sur leurs résultats. Les résultats en faveur du traitement ainsi que ceux en défaveur doivent être pris en considération.
Les essais thérapeutiques ont d’autant plus de chance d’être publiés que leurs résultats s’avèrent positifs, c’est-à-dire statistiquement significatifs. Il existe ainsi une publication sélective des résultats positifs au détriment des résultats négatifs. Cela ne veut pas dire que ces derniers ne soient jamais publiés mais ils le sont plus difficilement et seulement pour une partie d'entre eux. Les raisons de cette censure sont multiples et peuvent provenir soit des comités de lecture des journaux, soit des firmes finançant l'étude, mais aussi d'une autocensure que s'infligent spontanément les investigateurs.
De ce fait la littérature biomédicale ne reflète pas exactement la réalité et en donne un aperçu exagérément optimiste, en taisant les résultats en défaveur de l’efficacité des traitements. C'est le biais de publication (« publication biais ») (cf. chapitre Méta-analyse).
La prise en considération de tous les essais entrepris avec un traitement, publiés et non publiés, est indispensable avant de conclure à l’efficacité du traitement et doit comporter une recherche poussée des essais non publiés. Ces synthèses exhaustives sont réalisées sous forme de méta-analyse (cf. chapitre méta-analyse).
Exemple
Les conséquences potentiellement dommageables du biais de publication sont parfaitement illustrées par l'exemple des antiarythmiques de classe 1 en post infarctus. Leur nocivité n'a été mise en évidence qu'en 1991 (par l’essai CAST) alors que dès 1980 un essai de petite taille avait observé une forte augmentation de mortalité avec une molécule de cette classe, le lorcainide [35]. Cependant cet essai n'a pas été publié. Bien qu'il soit impossible de réécrire l'histoire, il est raisonnable de penser que la publication de cet essai aurait peut-être accéléré la mise en place de l'essai de confirmation qu'a été CAST. Ici la non publication d'un résultat non concluant a certainement retardé la mise en évidence d'un effet délétère avec comme conséquence de nombreuses morts prématurées.
Les différents points que nous venons de voir conduisent à conclure que l'obtention de preuves fiables de l'efficacité d'un traitement nécessite :
· une vérification directe, sur critères cliniques, que le traitement permet d'atteindre l'objectif thérapeutique pour lequel il est pressenti
· que cette vérification s'effectue sans biais par le moyen d'essais thérapeutiques randomisés correctement conçus et réalisés
· que plusieurs résultats concordants soient disponibles pour éliminer un résultat artefactuel dû, soit au risque d'erreur statistique à, soit à une étude biaisée
· que l'ensemble des essais conduits, publiés et non publiés, quels que soient leurs résultats, soit disponible afin de pouvoir en faire une synthèse loyale pesant les résultats positifs et négatifs
· la synthèse des essais en prenant en compte l'inflation du risque alpha et le risque bêta par la technique de la méta-analyse
1.
Roland M, Torgerson DJ. Understanding controlled trials: what are
pragmatic trials? BMJ 1998;316:285. PMID:
2. Eschwege E, Bouvenot G. Essais
explicatifs ou pragmatiques. Le dualisme. Rev Med Int 1994;15:357-61. PMID:
3. Vray M, Bouvenot G. Il faut faire des
essais pragmatiques. Presse Med 1995;24. PMID:
4. Cucherat M, Dürr F. Contexte de la
médecine factuelle. Med
Hyg 2000;58:850-55. PMID:
5. Echt DS, Liebson PR, Mitchell LB, Peters
RW. Mortality and morbidity in patients receiving encainide, flecainide or
placebo. The Cardiac Arrhythmia Suppression Trial. NEJM 1991;324:781-8. PMID:
6. Moore TJ. Deadly medicine. New York:
Simon & Schuster; 1995.
7. Risks and benefits of estrogen plus
progestin in healthy postmenopausal women: principal results From the Women's
Health Initiative randomized controlled trial. Jama 2002;288(3):321-33. PMID: 12117397.
8. Cholesterol, diastolic blood pressure,
and stroke: 13,000 strokes in 450,000 people in 45 prospective cohorts. Lancet 1995;346:1647-1652.
PMID:
9. Blauw GJ, Lagaay AM, Smelt AHM,
Westendorp RGP. Stroke, statins, and Cholesterol. A meta-analysis of
randomized, placebo-controlled, bouble-blind trials with HMG-CoA reductase
inhibitors. Stroke 1997;28:946-950. PMID:
10. Lechat P, Packer M, Chalon S, Cucherat
M, Arab T, Boissel JP. Clinical
effects of beta-adrenergic blockade in chronic heart failure: a meta-analysis
of double-blind, placebo-controlled, randomized trials. Circulation
1998;98(12):1184-91. PMID:
11. The Cardiac Insufficiency Bisoprolol
Study II (CIBIS-II): a randomised trial. Lancet 1999;353(9146):9-13. PMID:
12. Cohn JNG, S.O. A dose-dependant increase
in mortality with vesnarinone among patient with severe heart failure.
Vesnarinone Trial Investigators. NEJM 1998;339:1810-6. PMID:
13. Cowley AJS, A.M. Treatment of severe
heart failure: quantity or quality of life? A trial of enoximone. Enoximone
Investigators. Br Heart J 1994;72:226-30. PMID:
14. Vernon MWH, R.C.;Brogden,R.N. Enoximone.
A review of its phamacological properties and therapeutic potential. Drugs
1991;42:997-1017. PMID:
15. Uretsky BF, Jessup M, Konstam MA, Dec
GW, Leier CV, Benotti J, et al. Multicenter trial of oral enoximone in patients
with moderate to moderately severe congestive heart failure. Lack of benefit
compared with placebo. Enoximone Multicenter Trial Group. Circulation
1990;82(3):774-80. PMID:
16. MacMahon S, Collins R. Reliable
assessment of the effects of treatment on mortality and major morbidity, II:
observational studies. Lancet 2001;357:455-62. PMID:
17. Jenicek M. Epidemiology. The logic of modern medicine. Montreal: EPIMED; 1995.
18. Jha P, Flather M, Lonn E, Farkouh M,
Yusuf S. The antioxidant vitamins and cardiovascular disease. Ann Intern Med
1995;123:860-72. PMID:
19. Alpha-Tocopherol Beta Carotene Cancer
Prevention Study Group. The effect of vitamin E and beta carotene on the
incidence of lung cancer and other cancers in male smokers. NEJM
1994;330:1029-35. PMID:
20. Omenn GS, Goodman GE, Thornquist MD,
Balmes J, Cullen MR, Glass A, et al. Effects of a combination of beta carotene
and vitamin A on lung cancer and cardiovascular disease. NEJM 1996;334:1150-5. PMID:
21. Hennekens CH, Buring JE, Manson JC,
Stampfer M, Rosner B, Cook NR, et al. Lack of effect of long-term
supplementation with beta carotene on the incidence of malignant neoplasms and
cardiovascular disease. NEJM 1996;334:1145-9. PMID:
22. Egger M, Davey Smith G. Misleading
meta-analysis. BMJ 1995;310:752-754. PMID:
23. Carroll D, Tramèr M, McQuay H,
Nye B, Moore A. Randomization is important in studies with pain outcomes:
systematic review of transcutaneous electrical nerve stimulation in acute
postoperative pain. British Journal of Anaesthesia 1996;77:798-803. PMID:
24. Kunz R, Owman AD. The unpredictability
paradox: review of empirical comparisons of randomised and non-randomised
clinical trials. BMJ 1998;317:1185-90. PMID:
25. Diehl LF, Perry DJ. A comparison of
randomized concurrent control groups with matched historical control groups:
are historical controls valid? J Clin Oncol 1986;4:1114-20. PMID:
26. Gleave ME EM, Fradet Y, Davis I, Venner
P, Saad F, Klotz LH, Moore MJ, Paton V, Bajamonde A. Interferon gamma-1b
compared with placebo in metastatic renal-cell carcinoma. Canadian Urologic
Oncology Group. NEJM 1998;338(18):1265-71. PMID:
27. Zelen M. Guidelines for publishing
papers on cancer clinical trials. J Clin Oncology 1983;1:164-169. PMID:
28. Hardcastle JD, Chamberlain JO, Robinson
MH, Moss SM, Amar SS, Balfour TW, et al. Randomised controlled trial of
faecal-occult-blood screening for colorectal cancer. Lancet 1996;348:1472-7. PMID:
29. Kronborg O, Fenger C, Olsen J, Jorgensen
OD, Sondergaard O. Randomised study of screening for colorectal cancer with
faecal-occult-blood test. Lancet 1996;348(9040):1467-71. PMID:
30. Freifeld A, Marchigiani D, Walsh T,
Chanock S, Lewis L, Hiemenz J, et al. A double-blind comparison of empirical
oral and intravenous antibiotic therapy for low-risk febrile patients with
neutropenia during cancer chemotherapy. NEJM 1999;341(5):305-11. PMID:
31. Kern WV, Cometta A, De Bock R,
Langenaeken J, Paesmans M, Gaya H. Oral versus intravenous empirical
antimicrobial therapy for fever in patients with granulocytopenia who are
receiving cancer chemotherapy. International Antimicrobial Therapy Cooperative
Group of the European Organization for Research and Treatment of Cancer. NEJM
1999;341(5):312-8. PMID:
32. Saltz LB, Cox JV, et al. Irinotecan plus
fluorouracil and leucovoin for metastatic colorectal cancer. NEJM
2000;343:905-14. PMID:
33. Sargent DJ, Niedzwiecki D, O'Connell MJ,
Schilsky RL. Recommendation for caution with irinotecan, fluorouracil, and
leucovorin for colorectal cancer. NEJM 2001. PMID:
34. Ravnskov U. Cholesterol lowering trials
in coronary heart disease: frequency of citation and outcome. BMJ
1992;305:15-9. PMID:
35. Cowley AJ, Skene A, Stainer K, Hampton
JR. The effect of lorcainide on arrhythmias and survival in patients with acute
myocardial infarction: an example of publication bias. Int J Cardiol
1993;40(2):161-6. PMID:
Interprétation des essais cliniques pour la pratique
médicale
www.spc.univ-lyon1.fr/polycop
Faculté de Médecine Lyon - Laennec
Mis à jour : aout 2009