Validité des comparaisons indirectes
Accueil > Sommaire > Comparaison
indirecte
Classiquement, on considère que
l’approche de référence pour comparer deux traitements
actifs est celle des comparaisons directes. Par exemple, ICH E10 (choice of control
group in clinical trials) mentionne (§ 2.1.7.4) : « Placebo-controlled
trials lacking an active control give little useful information about
comparative effectiveness, information that is of interest and importance in
many circumstances. Such information cannot reliably be obtained from
cross-study comparisons, as the conditions of the studies may have been quite
different. ».
En partant de ce postulat, pour être valides, les comparaisons indirectes doivent donner, pour une situation donnée, les mêmes résultats que ceux obtenus par comparaisons directes.
L’étude de la validité des comparaisons indirectes peut alors se ramener à l’étude des différences entre les résultats produits par les deux méthodes. Cette approche nécessite de disposer de domaines où les deux méthodes sont applicables, c’est-à-dire des domaines où il existe des comparaisons directes et du matériel permettant la réalisation des comparaisons indirectes.
L’étude la plus aboutie abordant la question de la validité des comparaisons indirectes est celle de Song et col. publiée dans le BMJ en 2003 (1). Ce travail est aussi rapporté avec plus de détails dans le document du NHS R&D HTA programme coordonné par Glenny (2).
Dans ce travail
les comparaisons indirectes ont été réalisées avec
la méthode « adjusted indirect
comparison ». La mesure de discordance « discrepancy » utilisée
est la différence où Tdirect
et Tindirect représentent respectivement l’estimation
directe et indirecte de la différence d’effet entre les deux
traitements. Des domaines dans lesquels existaient à la fois des essais
de comparaison directe et la possibilité de faire des comparaisons
indirectes ont été cherchés. Les estimations Tdirect
et Tindirect ont été obtenues par méta-analyse
utilisant un modèle aléatoire. Pour les critères de
jugement continus les estimations de l’effet traitement ont porté
sur la différence des moyennes tandis que pour les critères
binaires, le logarithme du risque relatif a été utilisé.
Il est possible de calculer un intervalle de confiance à 95% de la différence D. En cas de parfaite concordance entres les estimations directe et indirecte, la différence D est nulle.
La Figure 1 représente les degrés de discordance et leur intervalle de confiance observés pour les 44 méta-analyses considérées appartenant à différents champs thérapeutiques.
L’intervalle de confiance de la différence D permet d’intégrer dans la comparaison des résultats des deux méthodes les incertitudes statistiques existant à leur niveau. Il convient en effet impérativement de tenir compte de ces incertitudes car la référence (Tdirect) n’est pas connue avec exactitude mais estimée avec une marge d’erreur. Cet intervalle de confiance représente ainsi la plage de valeur raisonnablement compatible avec la vraie différence entre les deux méthodes compte tenu de la marge d’erreur possible sur Tdirect et Tindirect. Lorsque cet intervalle n’englobe pas zéro, il est possible de conclure qu’il existe une réelle différence entre les deux estimations Tdirect et Tindirect, même malgré les incertitudes pesant sur Tdirect et Tindirect. Par contre, si l’intervalle contient zéro, la différence observée peut induire des erreurs des estimations Tdirect et Tindirect et il n’est donc pas possible de conclure à une réelle différence de résultats entres les deux estimations.
Figure 1 – Discordance (discrepancy) entre les résultats des comparaisons directes et indirectes pour les 44 méta-analyses étudiées par Song et al.BMJ 2003 ;326 :472
La discordance entre les deux méthodes peut aussi être représentée à l’aide du z-score (différence standardisée par son erreur standard) comme le montre la Figure 2.
Figure 2 – Désaccord exprimé en termes de z-score en fonction du nombre d’études disponibles pour estimer la comparaison indirecte
Dans cette étude, seulement 3 cas sur 44 révèlent un désaccord statistiquement significatif entre l’estimation des comparaisons directes et celles des comparaisons indirectes. Deux de ces cas de désaccord concernent les traitements par H2RA ou PPI. Le dernier cas concerne le paracétamol et son association avec la codéine dans le traitement de la douleur chirurgicale (3) et révèle une discordance totale entre les deux estimations (cf. Tableau 1).
Tableau 1 – Explication des discordances observées entre comparaisons directes et indirectes dans le cas de l’association paracétamol et codéine pour le traitement de la douleur chirurgicale ((2))
Cependant ces deux résultats sont obtenus en combinant des essais plutôt hétérogènes en termes de chirurgie et de doses (variant de 300mg à 1000mg pour le paracétamol et de 30 à 60mg pour la codéine).
Le type de chirurgie ne semble pas pouvoir expliquer la discordance étant donné que la restriction de l’analyse aux essais de douleurs post-chirurgie dentaire (les plus nombreux) ne la fait pas disparaître.
Par contre, comparaisons directes et indirectes produisent des résultats non différents quand l’analyse porte sur des essais utilisant les traitements à la même dose (600-650mg de paracétamol et 60mg de codéine). L’enseignement de cet exemple est assez trivial. Il met simplement en exergue la nécessité en méta-analyse (destinée ou non à réaliser des comparaisons indirectes), de faire des regroupements homogènes d’essais vis-à-vis de la question posée et d’effectuer des analyses de sensibilité. Ici, il est possible d’évoquer la relation entre la dose et l’effet pour expliquer les discordances observées, même si d’autres facteurs non identifiés peuvent concourir aussi à ce résultat.
Le premier travail de comparaison a été réalisé en 1997 par Bucher (4). Cette étude porte sur la prévention des pneumonies à Pneumocystis Carinii chez des patients infectés par le VIH et la comparaison de l’association trimethropime-sulfamethoxazole à l’association dapsone-pyrimethamine.
Huit essais effectuant la comparaison directe sont disponibles conduisant, en méta-analyse, à un odds ratio de 0.64. L’estimation à l’aide d’une comparaison indirecte ajustée utilisant les résultats de 14 essais donne un odds ratio de 0.37. Le test de comparaison de ces deux estimations donne p=0.11.
Dans cet exemple, les deux approches ne conduisent pas aux mêmes estimations même si elles restent compatibles compte tenu de leurs degrés de précision (p d’hétérogénéité à 0.11)
Les auteurs ont comparé les caractéristiques des études sans trouver de véritable explication à cette discordance.
Antérieurement à son travail de 2003, Song et al. (5) avaient conduit une première comparaison des résultats fournis par les comparaisons directes et indirectes à propos de l’antibio-prophylaxie dans la chirurgie du colon. Une forte discordance avait été observée (Tableau 2). Les auteurs imputent cette discordance au hasard en raison du faible nombre d’essais et de leur petitesse. En effet, seulement trois essais multibras sont impliqués dans ces calculs, fournissant à la fois les données nécessaires aux comparaisons indirectes et aux comparaisons directes. La non-indépendance des différents bras au sein d’un même essai n’a pas été prise en compte.
Tableau 2 – Résultats des comparaisons indirectes et directes trouvées par Song et al. (5) ((5))
Du fait de son caractère mono-thématique (ne correspondant qu’une seule question thérapeutique) et du faible nombre d’essais impliqués, ce travail ne peut pas constituer une étude empirique de la validité des comparaisons indirectes.
L’essai de comparaison directe appelé aussi essai « face à face » est considéré actuellement comme étant l’approche de référence pour comparer l’efficacité ou la sécurité de deux traitements actifs, même si en pratique ce type d’étude fait régulièrement défaut (cf. section Erreur ! Source du renvoi introuvable.). Cette approche apporte de nombreux avantages. Elle apporte la réponse à la question de l’efficacité relative des deux traitements avec toutes les protections méthodologiques de l’essai contrôlé, randomisé, en double aveugle éventuellement. Les patients chez lesquels le résultat est obtenu sont parfaitement définis et connus (il s’agit de la population de l’étude). Cependant, des limites apparaissent en pratique.
La première limite est le faible recours à cette approche (cf. section Erreur ! Source du renvoi introuvable.). Dans bien des domaines ce type d’essai n’est pas disponible, notamment lors de l’évaluation post-AMM, laissant sans réponse la question de la hiérarchie d’efficacité et/ou de sécurité des traitements concurrents concernés.
Souvent, les essais de comparaisons directes entre traitements actifs sont réalisés en aval du dossier d’enregistrement. La qualité de ces essais peut être moins grande que celle d’essais mis en œuvre pour un enregistrement (6).
Les essais de comparaisons directes entre traitements actifs se révèlent souvent de plus faible niveau de preuve que les essais versus placebo, en particulier au niveau de l’insu. Dans le cas de la comparaison de deux traitements actifs, le plus souvent déjà commercialisés, le masquage des traitements garantissant le double insu est difficile. Il est impossible de changer l’apparence des deux médicaments pour les rentres indistincts car cela nécessiterait de faire des études plus ou moins poussée de bioéquivalence avec les formes galéniques transformées. De plus cela revient à comparer des formes non commercialisées. La réalisation en double aveugle des essais de comparaisons directes peut s’effectuer par encapsulation des spécialités pour les rendre indiscernables. Cette encapsulation peut modifier la cinétique et entrainer des modifications d’efficacité biaisant les résultats de l’essai « face à face ». Ceci a par exemple était observé avec les triptans (7, 8).
Il convient alors de recourir à la technique du double placebo mais la réalisation d’un placebo d’un traitement commercialisé pose des problèmes spécifiques d’ordre réglementaire et diplomatique (le traitement étant commercialisé en général par un concurrent commercial). Bien entendu, lorsque les traitements comparés ne sont pas des médicaments, l’obtention d’un double aveugle est encore plus difficile, voir impossible (mais dans ce cas les essais versus pas de traitement n’étaient pas non plus en double aveugle, sauf quelques exceptions versus « sham » par exemple).
Souvent les essais de comparaison directe sont réalisées sans l’objectif de les verser à un dossier d’enregistrement sauf, bien sûr, dans les situations où le recours au placebo est impossible. Les exigences méthodologiques et de qualité sont alors moins fortes. De plus, pour ces études, l’évaluation n’aura bien souvent à sa disposition qu’une publication scientifique et non pas un dossier in extenso comme c’est le cas avec les études du dossier d’enregistrement. Il devient alors difficile de juger de la qualité et de la fiabilité des études.
De plus ces essais sont assez fréquemment initiés par des groupes académiques qui parfois réalisent des essais avec des standards moins exigeants que ceux mis en œuvre pour les essais destinés à un enregistrement (6).
Une autre limite pratique provient de la réalisation tardive de ces essais dans les développements, longtemps après l’obtention des enregistrements et la commercialisation. Pendant ce temps, l’évaluation n’a aucun élément de comparaison directe pour définir la place d’un nouveau traitement dans la hiérarchie des ressources thérapeutique du domaine.
Enfin, se pose constamment la question de l’ « assay sensitivity » d’un essai contre traitement actif. Cette « assay sensitivity » est l’aptitude d’un essai à détecter d’éventuelle différence. Cette aptitude dépend de l’utilisation optimal des traitements (dose, schéma posologique), des patients inclus, de la puissance statistique, de la performance des critères de jugement, etc. Au niveau réglementaire, il est fortement recommander (ICH E10, §1.5) d’introduire un groupe placebo dans les essais comparant 2 traitements actifs pour démontrer cette aptitude de l’essai à mettre en évidence les différences quand elles existent. Cela à par exemple était le cas dans plusieurs essais comparant un nouveau triptan au triptan de référence dans le traitement de la crise aigue de migraine (9).
Les essais comparant deux traitements actifs sont actuellement de plus ne plus fréquemment des essais de non infériorité qui pose des problèmes tout à fait spécifique. Dans ce type d’étude, la conclusion de non infériorité s’effectue au prix d’une perte d’efficacité potentielle. De ce fait, ce type d’essais ne permet pas vraiment de répondre à la question de la hiérarchie des traitements.
Tableau 3 – Avantages et limites des essais de comparaisons directes entre traitements actifs
Avantages |
Limites |
· Mesure directe de la question
posée · Haut degré potentiel de
protection contre les biais · Absence d’hypothèse sur la
cohérence des effets de A et B |
· Rarement effectués · Rarement en double aveugle · Souvent réalisés avec des
standards de qualité moindre que ceux des essais contre placebo · Réalisés tardivement dans
le développement des nouveaux traitements · Validation interne rare |
Tableau 4 – Apports, avantages des comparaisons directes et indirectes aux niveaux des principales difficultés engendrées par l’obtention de données comparatives d’efficacité ou de tolérance entre 2 traitements
|
Apports ou limites |
|
Difficultés |
Comparaison directe |
Comparaison indirecte |
Délai d’obtention |
· Tardive |
· Précoce (dès la
disponibilité des premiers essais) |
Qualité méthodologique |
· Fréquent défaut
d’insu · Qualité variable mais rien
n’exclu une qualité méthodologique maximale |
· Utilise des résultats obtenus en
double insu · Utilise des résultats produits
avec des exigences maximales de qualité |
Exhaustivité des comparaisons à tous les traitements
concurrents du domaine |
· Rare · Limitée dans certains domaines · Impossibilité d’exploiter
les données dans leur ensemble |
· Constante avec les techniques reposant
sur un réseau de comparaisons |
Biais de publication |
· Moins probable en raison de la taille
des effectifs nécessaires |
· Evitable, si inclusion de tous les
essais réalisés · Apport du registre des essais
cliniques, susceptible d’améliorer la pertinence des
comparaisons indirectes |
Dans la maladie d’Alzheimer, la comparaison donepezil et galantamine est documentée de façon direct par seulement deux essais : l’un publié par Jones (10) et l’autre par Wilcok (11). Le Tableau 5 décrit ces deux essais et leurs résultats. Chacun de ces deux essais a été financé par un fabriquant de l’une de ces deux molécules. L’essai de Jones comparant donepezil à la galatamine est sponsorisé par le fabriquant du donepezil tandis que l’essai de Wilcok comparant galatamine au donepezil est financé par le fabriquant de la galantamine.
Ces deux essais donnent des résultats contradictoires, concluant à chaque fois en faveur de la molécule du sponsor de l’essai.
Cet exemple n’a évidement aucune vertu de généralisation mais il met en évidence que l’essai « face à face » n’est peut être pas la solution au problème de la comparaison de deux traitements. Ces discordances de résultats peuvent provenir du caractère ouvert de ces essais.
Tableau 5 – Description et résultats des 2 essais de comparaisons directes donepezil versus galatamine
|
Jones et al. (10) |
Wilcok et al. (11) |
Sponsor |
Fabriquant du donepezil (Eisai Inc., Teaneck, NJ, USA
et Pfizer Global Pharmaceuticals, Pfizer Inc., NY, USA) |
Fabriquant de la galatamine Janssen-Cilag, Johnson & Johnson Pharmaceutical
Research, Shire Pharmaceuticals |
Patients |
Mild to moderate Alzheimer’s disease |
Alzheimer’s disease |
Comparaison |
donepezil (jusqu’à 10mg/j) or galantamine
(jusqu’à 24mg/j) |
galantamine (24 mg/j) and
donepezil (10 mg/j) |
Durée |
12 semaines |
53 semaines |
Effectif |
120 |
182 |
Critère de jugement principal/secondaires |
Physicians and caregivers
satisfaction with treatment/ease of use in daily practice / ADAS-cog, MMSE,
DAD-ADL |
BrADL, MMSE, ADAS-cog/11, NPI,
Screen for Caregiver Burden |
Aveugle |
Open |
Open, rater-blinded |
Résultat MMSE |
|
|
Résultat ADAS cog |
|
|
ADL |
|
|
Conclusion de l’essai |
Physician
and caregiver ease of use/satisfaction scores, and assessments of cognition
and ADL, showed significant benefits for donepezil compared with galantamine |
Significant
advantages were found in the treatment response to galantamine (versus
donepezil) on cognition as measured by response rates on the MMSE and
ADAS-cog/11 |
Une méta-analyse de synthèse des études empiriques étudiant la validité des comparaisons indirectes est planifiée dans le cadre de la Cochrane Collaboration par Song F, Altman DG, Glenny A, Eastwood AJ, Deeks JJ. Pour l’instant, elle n’est qu’au stade de protocoleet aucun résultat n’est encore disponible, en raison de la disponibilité d’une seule étude de ce type.
1. Song F, Altman DG, Glenny AM, Deeks JJ. Validity of indirect comparison for estimating efficacy of competing interventions: empirical evidence from published meta-analyses. Bmj 2003;326(7387):472.
2. Glenny AM, Altman DG, Song F, Sakarovitch C, Deeks JJ, D'Amico R, et al. Indirect comparisons of competing interventions. Health Technol Assess 2005;9(26):1-134, iii-iv.
3. Zhang WY, Li Wan Po A. Analgesic efficacy of paracetamol and its combination with codeine and caffeine in surgical pain--a meta-analysis. J Clin Pharm Ther 1996;21(4):261-82.
4. Bucher HC, Guyatt GH, Griffith LE, Walter SD. The results of direct and indirect treatment comparisons in meta-analysis of randomized controlled trials. J Clin Epidemiol 1997;50(6):683-91.
5. Song F, Glenny AM, Altman DG. Indirect comparison in evaluating relative efficacy illustrated by antimicrobial prophylaxis in colorectal surgery. Control Clin Trials 2000;21(5):488-97.
6. Lexchin J, Bero LA, Djulbegovic B, Clark O. Pharmaceutical industry sponsorship and research outcome and quality: systematic review. Bmj 2003;326(7400):1167-70.
7. Salonen R. Drug comparisons: why are they so difficult? Cephalalgia 2000;20 Suppl 2:25-32.
8. Fuseau E, Petricoul O, Sabin A, Pereira A, O'Quinn S, Thein S, et al. Effects of encapsulation on absorption of sumatriptan tablets: data from healthy volunteers and patients during a migraine. Clinical Therapeutics 2001;23(2):242.
9. Pascual J, Mateos V, Roig C, Sanchez-Del-Rio M, Jimenez D. Marketed oral triptans in the acute treatment of migraine: a systematic review on efficacy and tolerability. Headache 2007;47(8):1152-68.
10. Jones RW, Soininen H, Hager K, Aarsland D, Passmore P, Murthy A, et al. A multinational, randomised, 12-week study comparing the effects of donepezil and galantamine in patients with mild to moderate Alzheimer's disease. Int J Geriatr Psychiatry 2004;19(1):58-67.
11. Wilcock G, Howe I, Coles H, Lilienfeld S, Truyen L, Zhu Y, et al. A long-term comparison of galantamine and donepezil in the treatment of Alzheimer's disease. Drugs Aging 2003;20(10):777-89.
Interprétation
des essais cliniques pour la pratique médicale
www.spc.univ-lyon1.fr/polycop
Michel Cucherat
Faculté de Médecine Lyon - Laennec
Mis à jour : aout 2009