Les comparaisons indirectes

Accueil > Sommaire > Comparaison indirecte

1 Définitions et généralités

Les comparaisons directes et indirectes sont deux approches visant à comparer l’efficacité (ou la sécurité) de deux traitements actifs A et B, afin de répondre à la question A est-il supérieur ou non-inférieur à B ?

Une comparaison directe est effectuée quand les deux traitements A et B sont comparés directement dans un essai thérapeutique randomisé. Cet essai est aussi appelé essai avec control actif (« active-control »), ou comparaison face à face (« face à face comparison »). Le résultat d’un essai de ce type est donc une mesure de l’effet de A par rapport à B (risque relatif, odds ratio, différence des risques, hazard ratio, différence absolue ou relative des moyennes, etc.) et un test statistique de la réalité statistique d’une différence d’effet entre A et B. Un essai comparant directement un nouveau traitement à un traitement standard concluant montre ainsi la supériorité ou la non infériorité (en fonction de l’objectif de l’essai) du nouveau sur le standard.

Dans l’approche par comparaison indirecte, l’efficacité des deux traitements A et B est comparée par l’intermédiaire de l’efficacité respective des deux traitements par rapport à un contrôle commun, le plus souvent un placebo. L’idée est de répondre à la question A est-il supérieur ou inférieur à B à l’aide du résultat de la comparaison de A au contrôle et du résultat de la comparaison de B au même contrôle (Figure 1). Cette comparaison de A et B est indirecte car elle passe par un troisième traitement, le contrôle commun. Les essais A versus contrôle et B versus contrôle fournissent les comparaisons de base à partir desquelles sera effectuée la comparaison indirecte de A et de B.

Figure 1 – Illustration des principes des comparaisons directes et indirectes. Dans cet exemple, le traitement contrôle des comparaisons de base est le placebo (PBO)

A titre d’exemple, lorsque le critère de jugement est binaire, les résultats issus d’une comparaison directe peuvent être exprimés sous forme d’un risque relatif. Ce risque relatif mesure la réduction supplémentaire de fréquence de l’événement, critère de jugement, qu’apporte le traitement A par rapport à celle qu’apporte le traitement B (B étant efficace et réduisant déjà la fréquence de l’événement).

Le Tableau 1 illustre les résultats typiques d’un essai de comparaison directe de A vs B.

Tableau 1- Résultats d’un essai de comparaison directe de A versus B

Traitement A

n=1000

Traitement B

n=1000

Risque relatif

(IC 95%)

P value

Décès

127 (12.7%)

234 (23.4%)

0.54 (0.45 ; 0.66)

<0.001

Dans les comparaisons directes (Tableau 2), nous disposons à la base de deux risques relatifs, celui de A vs PBO et celui de B vs PBO. Ces risques relatifs mesurent l’efficacité « absolue » du traitement considéré (A ou B), c’est-à-dire la réduction relative de fréquence de l’événement qu’apporte ce traitement par rapport à l’absence de son utilisation.

Intuitivement, si le risque relatif de A versus PBO est plus petit que celui de B versus PBO, on a tendance à considérer que A est plus efficace que B, bien que, comme nous le verrons par la suite, cette méthode de comparaison soit inappropriée.

Tableau 2 – Résultats des essais de comparaisons directes de base nécessaires à la comparaison indirecte de A et de B par l’intermédiaire du placebo

A vs placebo
	Traitement A n=1000	Placebo n=1000	Risque relatif (IC 95%)	P value
Décès	134 (13.4%)	274 (27.4%)	0.49 (0.41 ; 0.59)	<0.001

B vs placebo
	Traitement A n=1000	Placebo n=1000	Risque relatif (IC 95%)	P value
Décès	56 (5.6%)	103 (10.3%)	0.50 (0.4 ; 0.74)	<0.001

Jusqu’à récemment, la comparaison directe était considérée comme l’approche de référence, tandis que les « comparaisons indirectes » étaient l’objet de nombreuses réserves, notamment en raison des méthodes simplistes utilisées. Des méthodes appropriées ont été développées. Des études théoriques et empiriques de validation réalisées ces dernières années sur le sujet laissent entrevoir une place en évaluation pour les comparaisons indirectes correctement réalisées et interprétées avec rigueur.

1 Contexte

Actuellement, il est extrêmement fréquent de disposer de plusieurs traitements concurrents pour une même situation pathologique. Il s’agit de traitements qui s’exclue mutuellement, entre autre parce qu’ils ont le même mécanisme d’action. Par exemple, à la phase aiguë de l’infarctus du myocarde, de nombreux fibrinolytiques sont disponibles pour la re-canalisation de l’artère coronaire obstruée auxquels s’ajoute l’angioplastie primaire qui a le même objectif. Ces différents traitements sont donc en concurrence pour la re-canalisation et il convient d’en choisir un en première intention. Dans la maladie d’Alzheimer, plusieurs molécules permettent de jouer la carte des anticholinestérasiques. Le traitement de la crise aiguë de migraine peut faire appel à de nombreux triptans (sumatriptan, zolmitriptan, naratriptan, eletriptan, etc.).

En évaluation, se pose donc la question de l’efficacité et de la tolérance relative des traitements concurrents les uns par rapports aux autres. Dans le but de faire des choix ou des recommandations rationnels, on aimerait savoir si un traitement est plus efficace et/ou mieux toléré que les autres et dans ce cas, comment se situe son efficacité et/ou sa tolérance par rapport aux autres. L’idée est de pouvoir proposer au patient le meilleur traitement en première intention et de réserver les autres pour une deuxième ou troisième intention.

Malheureusement, les comparaisons directes des traitements concurrents entre eux sont rarement disponibles, empêchant souvent d’aller bien loin dans la comparaison relative de la balance bénéfice/risque des traitements. L’absence de ces informations, engendre un blocage du processus rationnel d’évaluation des traitements sur des faits prouvés. Le choix se base alors sur les propriétés pharmacologiques des traitements, sur des résultats portant sur des critères intermédiaires, sur des considérations spéculatives diverses et variées, et c’est bien souvent des facteurs externes (attrait de la nouveauté, pression marketing, etc.) qui décident du traitement préférentiel.

L’idée de faire des comparaisons indirectes apparaît dans ce contexte. Il s’agit d’exploiter au mieux l’information issue de comparaisons directes disponible (principalement issue d’essais contre placebo, éventuellement de quelques essais épars versus traitements actifs) pour estimer l’efficacité et la tolérance relatives des différents traitements concurrents.

1.1 Manque de comparaisons directes entre traitements actifs

Pourquoi ne dispose-t-on généralement pas de tous les essais de comparaisons directes entre traitements actifs nécessaires à l’évaluation ?

Dans un schéma idéal, la question ne devrait pas se poser. A partir du moment où un premier traitement a montré son efficacité, les nouveaux arrivants devraient se comparer à lui pour montrer leur supériorité (d’efficacité ou de tolérance). Ce schéma idéal permettrait ainsi d’établir la hiérarchie de tous les traitements.

Le premier traitement T1 montre son efficacité par rapport au placebo. Il devient le traitement standard. Le deuxième traitement T2 se compare à T1 et montre sa supériorité (d’efficacité et/ou de tolérance). Il devient le nouveau traitement standard. Un troisième traitement se compare à T2, etc.

Cependant, même le parfait respect de ce processus peut conduire à des manques de comparaisons directes pourtant utiles. Cela se produit, par exemple, lorsque le troisième traitement échoue à montrer sa supériorité sur T2. Que devient ce traitement ? Faut-il l’abandonner définitivement ? Ne pourrait-il pas représenter une alternative de seconde intention (en cas d’intolérance d’un patient à T2 par exemple). En effet, il est peut être plus efficace et/ou mieux toléré que T1 (bien que non supérieur à T2). Un essai T3 vs T1 serait nécessaire pour répondre à cette interrogation. Il impliquerait de donner aux patients un traitement, T1, connu comme non optimal au moment de la réalisation de l’essai. Dans le cas d’une pathologie engageant le pronostic vital ou fonctionnel, un tel essai est irréalisable pour des raisons éthiques.

Une autre situation conduisant à un manque de comparaison directe peut survenir dans ce schéma idéal. Dans les domaines à haut potentiel, l’activité de développement est intense et deux nouveaux traitements (ou plus) peuvent débuter leurs essais simultanément. Dans ce cas les nouveaux traitements T3 et T4 vont se comparer à T2, traitement de référence au moment de l’initiation de leurs essais. A l’issu des essais, T3 et T4 se révèlent supérieurs à T2. Se pose alors la question de l’efficacité et de la tolérance relative de T3 et T4. Dans l’absolu, rien ne s’oppose alors à la réalisation d’un essai T3 vs T4 (car il n’entraînera pas de perte de chance connue pour les patients). En pratique, cet essai inter promoteurs est rarement réalisé.

La situation peut être encore plus complexe avec le recours aux essais de non infériorité. A partir d’un certain moment, les nouveaux traitements vont éviter de se positionner en supériorité par rapport au traitement de référence pour éviter la situation où T3 échoue à montrer sa supériorité par rapport à T2 et se retrouve ainsi dans une situation de quasi éviction. Un essai visant à montrer que T3 est non inférieur (« équivalent ») à T2 est entrepris à la place de l’essai de supériorité T2 vs T3, dans l’espoir de pouvoir conclure que T3 est aussi efficace que T2 et donc interchangeable. On sait que cette conclusion est erronée car la méthodologie de l’essai de non infériorité introduit une perte d’efficacité consentie pour permettre de conclure à la non infériorité. A l’issu d’un essai de non infériorité concluant, T3 est potentiellement inférieur à T2 et, en pratique, T3 n’obtient qu’une indication de seconde ligne. La question qui se pose alors est de savoir comment se positionne T3 par rapport à T1, en sachant qu’il s’agit d’envisager une comparaison directe avec un traitement d’efficacité non optimale (T1). En théorie, on devrait être assuré que T3 est au moins aussi efficace que T1 car la limite de non infériorité aurait du être choisie afin de le garantir (cf. ICH E10), mais l’étude empirique du domaine des essais de non-infériorité montre que cette occurrence est très rare. ^1,2.

1.2 Prédilection pour les essais contre placebo

Dans de nombreux domaines, le recours exclusif au placebo reste acceptable au cours du développement d’un nouveau traitement même après la mise à disposition d’un premier traitement efficace ³. C’est par exemple le cas des traitements symptomatiques de pathologies n’engageant pas le pronostic (vital ou fonctionnel). Dans ces domaines, le schéma idéal évoqué précédemment n’est pas suivi.

A l’issu de ce type de développement, l’évaluation peut se retrouver avec n comparaisons versus placebo sans aucune notion de l’efficacité relative des traitements entre eux (si l’on s’en tient aux essais réalisés). Il s’agit d’une situation de fait, très courante.

Ce manque chronique d’essais comparant les traitements actifs entre eux a régulièrement été dénoncé aussi bien en France qu’Outre-Atlantique.

Un éditorial du New York Times du 16 novembre 2003 intitulé « Head-to-Head Drug Combat » relève que « …For the most part, drugs in this country are not tested against other drugs in the same class. Instead they are tested against a placebo, and if shown to be comparatively safe and effective are approved for marketing. That leaves both patients and their doctors uncertain which approved drugs are better than their competitors and whether high-priced drugs warrant their added cost compared with lower-cost alternatives. »

En France, ce manque est aussi relevé dans un rapport de la Cour des Comptes sur l’application des lois de financement de la sécurité sociale du 12 septembre 2007, chapitre 9 :

« Par ailleurs, le caractère non obligatoire et donc non systématique des essais cliniques contre comparateurs est problématique. La commission de la transparence ne dispose pas du pourcentage exact de dossiers présentant des essais cliniques contre comparateurs, mais une estimation réalisée à partir d’un échantillon laisse à penser que moins de la moitié des dossiers dispose de ces données. »

1.3 Non transitivité des tests statistiques

Une autre difficulté que l’on est susceptible de rencontrer dans la recherche de la hiérarchie d’efficacité (ou de sécurité) de plusieurs traitements est la non transitivité de certains tests statistiques employés dans les essais cliniques ^4-6.

Ce problème fait que, même si toutes les comparaisons directes nécessaires sont réalisées, les conclusions des essais s’avèrent paradoxales, empêchant le classement des traitements.

Par exemple, dans un même essai à 3 bras comparant les traitements A, B et C, il est possible de trouver A meilleur que B, B meilleur que C et C meilleur que A en raison de la non transitivité de certains tests.

La non transitivité est bien connue pour le test de Wilcoxon, mais se retrouve aussi pour toute la famille des tests basés sur les rangs comme le Logrank et le Cox, très fréquemment utilisés dans les essais cliniques.

Ce phénomène représente donc aussi une limite à l’approche basée uniquement sur des essais « face à face » conduisant à des comparaisons 2 à 2 des traitements. Les paradoxes induits par la non transitivité des tests sont résolus par l’utilisation des méthodes d’estimation globale du réseau d’essais décrites dans la section Erreur ! Source du renvoi introuvable. et non plus par des comparaisons 2 à 2.

1.4 Essais cliniques de non infériorité

Les essais de non infériorité sont de plus en plus courants à l’heure actuelle. Ils cherchent à montrer qu’un nouveau traitement n’est pas inférieur à un traitement standard. Derrière cette conclusion se cache une perte d’efficacité consentie potentielle. Ce point, constamment méconnu dans les conclusions de ces essais, fait qu’un essai de non infériorité concluant ne permet pas de conclure que le nouveau traitement est aussi efficace que le traitement de référence. On peut seulement conclure, avec un risque d’erreur de 5%, qu’il n’entraine pas une perte d’efficacité supérieure à la limite choisie. Le risque d’erreur limité à 5% est celui de faire cette conclusion alors que le nouveau traitement est nettement inférieur au traitement standard. Etant donnée cette perte d’efficacité consentie, il faut que le nouveau traitement présente des avantages par rapport au traitement standard sur d’autre plan que l’efficacité (tolérance, modalités d’utilisation, etc…).

En pratique, les limites de non infériorité sont encore choisies de manière arbitraire et ne répondent pas aux exigences réglementaires imposées par ICH E9 (§ 3.3.2). La limite choisie doit garantir que la perte d’efficacité entrainée par le nouveau traitement ne sera pas supérieure à l’efficacité du traitement standard, sinon l’essai de non infériorité pourrait s’avérer concluant avec un nouveau traitement inférieur au traitement standard :

An equivalence margin should be specified in the protocol; this margin is the largest difference that can be judged as being clinically acceptable and should be smaller than differences observed in superiority trials of the active comparator.

L’interprétation des résultats des essais de non infériorité n’étant pas intuitive et la vérification de l’acceptabilité de la limite choisie nécessitant de disposer des résultats des essais réalisés avec le traitement standard, il a été proposé à plusieurs reprise de transformer les résultats de l’essai de non infériorité en une comparaison par rapport à un placebo putatif à l’aide d’un processus d’extrapolation similaire à celui mis en œuvre dans les comparaisons indirectes.

Une approche basée sur le réseau d’essais permet d’intégrer les essais de non-infériorité et de supériorité et permet ainsi d’unifier l’interprétation des résultats de ces différents types d’études, sans tenir compte des seuils de non infériorité utilisés et très souvent non justifiés.

Interprétation des essais cliniques pour la pratique médicale

www.spc.univ-lyon1.fr/polycop

Michel Cucherat

Faculté de Médecine Lyon - Laennec

Mis à jour : aout 2009