Les comparaisons indirectes
Accueil > Sommaire > Comparaison indirecte
Les comparaisons directes et indirectes sont deux
approches visant à comparer l’efficacité (ou la
sécurité) de deux traitements actifs A et B, afin de
répondre à
Une comparaison directe est effectuée quand les deux traitements A et B sont comparés directement dans un essai thérapeutique randomisé. Cet essai est aussi appelé essai avec control actif (« active-control »), ou comparaison face à face (« face à face comparison »). Le résultat d’un essai de ce type est donc une mesure de l’effet de A par rapport à B (risque relatif, odds ratio, différence des risques, hazard ratio, différence absolue ou relative des moyennes, etc.) et un test statistique de la réalité statistique d’une différence d’effet entre A et B. Un essai comparant directement un nouveau traitement à un traitement standard concluant montre ainsi la supériorité ou la non infériorité (en fonction de l’objectif de l’essai) du nouveau sur le standard.
Dans l’approche par comparaison
indirecte, l’efficacité des deux traitements A et B est
comparée par l’intermédiaire de l’efficacité
respective des deux traitements par rapport à un contrôle commun,
le plus souvent un placebo. L’idée est de répondre à
Figure 1 – Illustration des principes des comparaisons directes et indirectes. Dans cet exemple, le traitement contrôle des comparaisons de base est le placebo (PBO)
A titre d’exemple, lorsque le critère de jugement est binaire, les résultats issus d’une comparaison directe peuvent être exprimés sous forme d’un risque relatif. Ce risque relatif mesure la réduction supplémentaire de fréquence de l’événement, critère de jugement, qu’apporte le traitement A par rapport à celle qu’apporte le traitement B (B étant efficace et réduisant déjà la fréquence de l’événement).
Le Tableau 1 illustre les résultats typiques d’un essai de comparaison directe de A vs B.
Tableau 1- Résultats d’un essai de comparaison directe de A versus B
|
Traitement A n=1000 |
Traitement B n=1000 |
Risque relatif (IC 95%) |
P value |
Décès |
127 (12.7%) |
234 (23.4%) |
|
<0.001 |
Dans les comparaisons directes (Tableau 2), nous disposons à la base de deux risques relatifs, celui de A vs PBO et celui de B vs PBO. Ces risques relatifs mesurent l’efficacité « absolue » du traitement considéré (A ou B), c’est-à-dire la réduction relative de fréquence de l’événement qu’apporte ce traitement par rapport à l’absence de son utilisation.
Intuitivement, si le risque relatif de A versus PBO est plus petit que celui de B versus PBO, on a tendance à considérer que A est plus efficace que B, bien que, comme nous le verrons par la suite, cette méthode de comparaison soit inappropriée.
Tableau 2 – Résultats des essais de comparaisons directes de base nécessaires à la comparaison indirecte de A et de B par l’intermédiaire du placebo
A vs placebo |
||||
|
Traitement A n=1000 |
Placebo n=1000 |
Risque relatif |
P value |
Décès |
134 (13.4%) |
274 (27.4%) |
|
<0.001 |
|
|
|
|
|
B vs placebo |
||||
|
Traitement A n=1000 |
Placebo n=1000 |
Risque relatif |
P value |
Décès |
56 (5.6%) |
103 (10.3%) |
|
<0.001 |
Jusqu’à récemment, la comparaison directe était considérée comme l’approche de référence, tandis que les « comparaisons indirectes » étaient l’objet de nombreuses réserves, notamment en raison des méthodes simplistes utilisées. Des méthodes appropriées ont été développées. Des études théoriques et empiriques de validation réalisées ces dernières années sur le sujet laissent entrevoir une place en évaluation pour les comparaisons indirectes correctement réalisées et interprétées avec rigueur.
Actuellement, il est extrêmement fréquent de disposer de plusieurs traitements concurrents pour une même situation pathologique. Il s’agit de traitements qui s’exclue mutuellement, entre autre parce qu’ils ont le même mécanisme d’action. Par exemple, à la phase aiguë de l’infarctus du myocarde, de nombreux fibrinolytiques sont disponibles pour la re-canalisation de l’artère coronaire obstruée auxquels s’ajoute l’angioplastie primaire qui a le même objectif. Ces différents traitements sont donc en concurrence pour la re-canalisation et il convient d’en choisir un en première intention. Dans la maladie d’Alzheimer, plusieurs molécules permettent de jouer la carte des anticholinestérasiques. Le traitement de la crise aiguë de migraine peut faire appel à de nombreux triptans (sumatriptan, zolmitriptan, naratriptan, eletriptan, etc.).
En évaluation, se pose donc la question de l’efficacité et de la tolérance relative des traitements concurrents les uns par rapports aux autres. Dans le but de faire des choix ou des recommandations rationnels, on aimerait savoir si un traitement est plus efficace et/ou mieux toléré que les autres et dans ce cas, comment se situe son efficacité et/ou sa tolérance par rapport aux autres. L’idée est de pouvoir proposer au patient le meilleur traitement en première intention et de réserver les autres pour une deuxième ou troisième intention.
Malheureusement, les comparaisons directes des traitements concurrents entre eux sont rarement disponibles, empêchant souvent d’aller bien loin dans la comparaison relative de la balance bénéfice/risque des traitements. L’absence de ces informations, engendre un blocage du processus rationnel d’évaluation des traitements sur des faits prouvés. Le choix se base alors sur les propriétés pharmacologiques des traitements, sur des résultats portant sur des critères intermédiaires, sur des considérations spéculatives diverses et variées, et c’est bien souvent des facteurs externes (attrait de la nouveauté, pression marketing, etc.) qui décident du traitement préférentiel.
L’idée de faire des comparaisons indirectes apparaît dans ce contexte. Il s’agit d’exploiter au mieux l’information issue de comparaisons directes disponible (principalement issue d’essais contre placebo, éventuellement de quelques essais épars versus traitements actifs) pour estimer l’efficacité et la tolérance relatives des différents traitements concurrents.
Pourquoi ne dispose-t-on généralement pas de tous les essais de comparaisons directes entre traitements actifs nécessaires à l’évaluation ?
Dans un schéma idéal, la question ne devrait pas se poser. A partir du moment où un premier traitement a montré son efficacité, les nouveaux arrivants devraient se comparer à lui pour montrer leur supériorité (d’efficacité ou de tolérance). Ce schéma idéal permettrait ainsi d’établir la hiérarchie de tous les traitements.
Le premier traitement T1 montre son efficacité par rapport au placebo. Il devient le traitement standard. Le deuxième traitement T2 se compare à T1 et montre sa supériorité (d’efficacité et/ou de tolérance). Il devient le nouveau traitement standard. Un troisième traitement se compare à T2, etc.
Cependant, même le parfait respect de ce processus peut conduire à des manques de comparaisons directes pourtant utiles. Cela se produit, par exemple, lorsque le troisième traitement échoue à montrer sa supériorité sur T2. Que devient ce traitement ? Faut-il l’abandonner définitivement ? Ne pourrait-il pas représenter une alternative de seconde intention (en cas d’intolérance d’un patient à T2 par exemple). En effet, il est peut être plus efficace et/ou mieux toléré que T1 (bien que non supérieur à T2). Un essai T3 vs T1 serait nécessaire pour répondre à cette interrogation. Il impliquerait de donner aux patients un traitement, T1, connu comme non optimal au moment de la réalisation de l’essai. Dans le cas d’une pathologie engageant le pronostic vital ou fonctionnel, un tel essai est irréalisable pour des raisons éthiques.
Une autre situation conduisant à un manque de comparaison directe peut survenir dans ce schéma idéal. Dans les domaines à haut potentiel, l’activité de développement est intense et deux nouveaux traitements (ou plus) peuvent débuter leurs essais simultanément. Dans ce cas les nouveaux traitements T3 et T4 vont se comparer à T2, traitement de référence au moment de l’initiation de leurs essais. A l’issu des essais, T3 et T4 se révèlent supérieurs à T2. Se pose alors la question de l’efficacité et de la tolérance relative de T3 et T4. Dans l’absolu, rien ne s’oppose alors à la réalisation d’un essai T3 vs T4 (car il n’entraînera pas de perte de chance connue pour les patients). En pratique, cet essai inter promoteurs est rarement réalisé.
La situation peut être encore plus complexe avec le recours aux essais de non infériorité. A partir d’un certain moment, les nouveaux traitements vont éviter de se positionner en supériorité par rapport au traitement de référence pour éviter la situation où T3 échoue à montrer sa supériorité par rapport à T2 et se retrouve ainsi dans une situation de quasi éviction. Un essai visant à montrer que T3 est non inférieur (« équivalent ») à T2 est entrepris à la place de l’essai de supériorité T2 vs T3, dans l’espoir de pouvoir conclure que T3 est aussi efficace que T2 et donc interchangeable. On sait que cette conclusion est erronée car la méthodologie de l’essai de non infériorité introduit une perte d’efficacité consentie pour permettre de conclure à la non infériorité. A l’issu d’un essai de non infériorité concluant, T3 est potentiellement inférieur à T2 et, en pratique, T3 n’obtient qu’une indication de seconde ligne. La question qui se pose alors est de savoir comment se positionne T3 par rapport à T1, en sachant qu’il s’agit d’envisager une comparaison directe avec un traitement d’efficacité non optimale (T1). En théorie, on devrait être assuré que T3 est au moins aussi efficace que T1 car la limite de non infériorité aurait du être choisie afin de le garantir (cf. ICH E10), mais l’étude empirique du domaine des essais de non-infériorité montre que cette occurrence est très rare. 1,2.
Dans de nombreux domaines, le recours exclusif au placebo reste acceptable au cours du développement d’un nouveau traitement même après la mise à disposition d’un premier traitement efficace 3. C’est par exemple le cas des traitements symptomatiques de pathologies n’engageant pas le pronostic (vital ou fonctionnel). Dans ces domaines, le schéma idéal évoqué précédemment n’est pas suivi.
A l’issu de ce type de développement, l’évaluation peut se retrouver avec n comparaisons versus placebo sans aucune notion de l’efficacité relative des traitements entre eux (si l’on s’en tient aux essais réalisés). Il s’agit d’une situation de fait, très courante.
Ce manque chronique d’essais comparant les traitements actifs entre eux a régulièrement été dénoncé aussi bien en France qu’Outre-Atlantique.
Un éditorial du New York
Times du
En France, ce manque est aussi
relevé dans un rapport de la Cour des Comptes sur
l’application des lois de financement de la sécurité
sociale du
« Par ailleurs, le caractère non obligatoire et donc non systématique des essais cliniques contre comparateurs est problématique. La commission de la transparence ne dispose pas du pourcentage exact de dossiers présentant des essais cliniques contre comparateurs, mais une estimation réalisée à partir d’un échantillon laisse à penser que moins de la moitié des dossiers dispose de ces données. »
Une autre difficulté que l’on est susceptible de rencontrer dans la recherche de la hiérarchie d’efficacité (ou de sécurité) de plusieurs traitements est la non transitivité de certains tests statistiques employés dans les essais cliniques 4-6.
Ce problème fait que, même si toutes les comparaisons directes nécessaires sont réalisées, les conclusions des essais s’avèrent paradoxales, empêchant le classement des traitements.
Par exemple, dans un même essai à 3 bras comparant les traitements A, B et C, il est possible de trouver A meilleur que B, B meilleur que C et C meilleur que A en raison de la non transitivité de certains tests.
La non transitivité est bien connue pour le test de Wilcoxon, mais se retrouve aussi pour toute la famille des tests basés sur les rangs comme le Logrank et le Cox, très fréquemment utilisés dans les essais cliniques.
Ce phénomène représente donc aussi une
limite à l’approche basée uniquement sur des essais
« face à face » conduisant à des
comparaisons 2 à 2 des traitements. Les paradoxes induits par la non
transitivité des tests sont résolus par l’utilisation des
méthodes d’estimation globale du réseau d’essais
décrites dans
Les essais de non infériorité sont de plus en plus courants à l’heure actuelle. Ils cherchent à montrer qu’un nouveau traitement n’est pas inférieur à un traitement standard. Derrière cette conclusion se cache une perte d’efficacité consentie potentielle. Ce point, constamment méconnu dans les conclusions de ces essais, fait qu’un essai de non infériorité concluant ne permet pas de conclure que le nouveau traitement est aussi efficace que le traitement de référence. On peut seulement conclure, avec un risque d’erreur de 5%, qu’il n’entraine pas une perte d’efficacité supérieure à la limite choisie. Le risque d’erreur limité à 5% est celui de faire cette conclusion alors que le nouveau traitement est nettement inférieur au traitement standard. Etant donnée cette perte d’efficacité consentie, il faut que le nouveau traitement présente des avantages par rapport au traitement standard sur d’autre plan que l’efficacité (tolérance, modalités d’utilisation, etc…).
En pratique, les limites de non infériorité sont encore choisies de manière arbitraire et ne répondent pas aux exigences réglementaires imposées par ICH E9 (§ 3.3.2). La limite choisie doit garantir que la perte d’efficacité entrainée par le nouveau traitement ne sera pas supérieure à l’efficacité du traitement standard, sinon l’essai de non infériorité pourrait s’avérer concluant avec un nouveau traitement inférieur au traitement standard :
An equivalence margin should be specified in the protocol; this margin
is the largest difference that can be judged as being clinically acceptable and
should be smaller than differences observed in superiority trials of the active
comparator.
L’interprétation des résultats des essais de non infériorité n’étant pas intuitive et la vérification de l’acceptabilité de la limite choisie nécessitant de disposer des résultats des essais réalisés avec le traitement standard, il a été proposé à plusieurs reprise de transformer les résultats de l’essai de non infériorité en une comparaison par rapport à un placebo putatif à l’aide d’un processus d’extrapolation similaire à celui mis en œuvre dans les comparaisons indirectes.
Une approche basée sur le réseau d’essais permet d’intégrer les essais de non-infériorité et de supériorité et permet ainsi d’unifier l’interprétation des résultats de ces différents types d’études, sans tenir compte des seuils de non infériorité utilisés et très souvent non justifiés.
Interprétation des essais cliniques pour la pratique
médicale
www.spc.univ-lyon1.fr/polycop
Faculté de Médecine Lyon - Laennec
Mis à jour : aout 2009