Gestión de los Ensayos Clínicos, Metodología, Costos y Conflictos de Interés

Demostrar la eficacia de un tratamiento

Rev Prescrire 2023; 32 (249): 162-165
Traducido por Salud y Fármacos, publicado en Boletín Fármacos: Ensayos Clínicos 2023; 26(4)

Tags: integridad de la ciencia, evaluar la eficacia de un tratamiento, limitaciones de los estudios observacionales, datos de la práctica clínica

Ensayos clínicos comparativos, aleatorizados y de doble ciego: la base de una estrategia científica rigurosa

¿Cuál es la mejor manera de demostrar la eficacia de un tratamiento? En otras palabras, ¿cómo se establece una relación causal entre el tratamiento y una mejoría clínica de suficiente valor como para justificar el riesgo de experimentar los daños conocidos —y los que aún no se conocen— de un medicamento?

Este artículo se basa en la revisión bibliográfica de Prescrire, sobre todo en lo que concierne a la evaluación de nuevos medicamentos y otros tratamientos.

Un ensayo clínico es un experimento científico en el que los participantes se someten a una intervención de salud para probar una hipótesis predefinida sobre la relación causal entre la intervención recibida y el estado de salud de los participantes.

Evaluar la eficacia de un tratamiento suele requerir su comparación con el tratamiento de referencia; si no existe ninguno, se debe comparar con un placebo o con ningún tratamiento. Si no se hace una comparación directa como parte del mismo estudio, es imposible distinguir bien entre las observaciones relacionadas con los efectos del tratamiento y las relacionadas con otros factores que sean diferentes entre los grupos.

Para poder asegurar que las diferencias observadas en un ensayo clínico se deben al tratamiento en estudio, los grupos que se comparan deben ser idénticos en todos los aspectos, excepto en el tratamiento que reciben. El método más confiable para formar grupos de personas con características similares es la aleatorización, en la que, mediante un proceso aleatorio, similar a lanzar una moneda al aire, se asigna a cada participante a un grupo.

En un ensayo clínico de doble ciego, ni los pacientes ni los profesionales de la salud saben qué tratamiento reciben los participantes: así se previene que su conocimiento del tratamiento influya en su comportamiento o en sus decisiones durante el estudio.

La evidencia de que un tratamiento tiene un efecto positivo sobre un criterio de valoración “indirecto” —por ejemplo, el valor de un analito en un análisis de laboratorio— por lo general no prueba que sea beneficioso para los pacientes.

Los ensayos clínicos aleatorizados de doble ciego son el método más sólido para aportar evidencia sobre la eficacia de un tratamiento, especialmente cuando otro ensayo clínico confirma sus resultados. Sin embargo, al tomar decisiones sobre el cuidado de la salud, es importante estar al tanto de sus limitaciones principales y también tomar en cuenta los riesgos conocidos y desconocidos, y lo que el paciente espera personalmente del tratamiento.

Un tratamiento es eficaz cuando previene las manifestaciones o la evolución habitual de una enfermedad o tiene un efecto positivo sobre esos aspectos, por ejemplo, al aliviar los síntomas, acelerar la recuperación, reducir la incidencia de complicaciones o la recurrencia, o alargar la supervivencia [1].

¿Cuál es la mejor manera de demostrar la eficacia de un tratamiento? En otras palabras, ¿cómo se establece una relación causal entre el tratamiento y una mejoría clínica de suficiente magnitud como para justificar el riesgo de experimentar los daños conocidos —y los que aún no se conocen— de un medicamento?

Este artículo se basa en la revisión bibliográfica de Prescrire, sobre todo en lo que concierne a la evaluación de nuevos medicamentos y otros tratamientos. En el texto, se explica el significado de los siguientes términos: ensayo clínico, comparativo, aleatorizado, doble ciego y criterio de valoración clínico.

Experimentación en lugar de simple observación
En el ámbito de la investigación clínica, existen dos tipos diferentes de estudios: los observacionales o descriptivos, y los de intervención o experimentales [2,3].

Estudios observacionales: describir sin intervenir. En un estudio observacional, se observa a un grupo de personas (una “cohorte”) que no está recibiendo una intervención adicional, además del tratamiento habitual, para cambiar la evolución de su salud. Estos estudios aportan información útil para evaluar un tratamiento, en particular para formular hipótesis sobre sus efectos y estimar la frecuencia de los efectos adversos [2]. Sin embargo, no demuestran una relación causal entre los efectos observados y el tratamiento recibido: no aportan pruebas sobre la eficacia de un tratamiento.

Por ejemplo, un estudio que usó datos de 121.700 mujeres, recabados entre 1976 y 1994, sugirió que la mortalidad era más baja entre las que usaban terapia hormonal posmenopáusica que entre las que no la usaban. La diferencia parecía ser más marcada en las mujeres con factores de riesgo para padecer episodios cardiovasculares. Se consideró estadísticamente significativa después de aplicar algunos “ajustes”, por ejemplo, hacer algunos cálculos para tomar en cuenta algunas diferencias entre quienes usaban ese tratamiento y quienes no, que se relacionaban principalmente con el peso corporal, si eran fumadoras, la presencia o ausencia de hipertensión y otros factores asociados a un aumento del riesgo de muerte prematura [4].

Cuidado con los factores de confusión que no se toman en cuenta. Este estudio observacional estableció la existencia de una asociación estadística — en esta cohorte de mujeres— entre el uso de terapia hormonal posmenopáusica y la mortalidad [4]. No obstante, esta asociación estadística se puede explicar de muchas maneras, además del uso de este tratamiento. Por ejemplo, es probable que las mujeres que elegían usar una terapia hormonal posmenopáusica (que, para ese momento, había sido considerada beneficiosa durante mucho tiempo) hubieran prestado más atención a su salud que las que no la usaban y hayan hecho ejercicio con regularidad, hayan tenido una dieta más saludable y, probablemente, se hayan sometido a más controles de salud, etc. Estos factores de “confusión”, si no estaban distribuidos equitativamente entre ambos grupos de mujeres, podrían haber contribuido a la mortalidad más baja que se observó entre las usuarias de terapia hormonal posmenopáusica. La confusión es una de las muchas causas de sesgo que se deben tomar en cuenta cuando se analizan los resultados de este tipo de estudios [3].

Otra posibilidad es que esta asociación estadística sea simplemente resultado del azar (a).

Más adelante, a comienzos de la década de 2000, un ensayo clínico aleatorizado, comparativo y de doble ciego de mayor tamaño llamado Iniciativa de Salud de la Mujer (WHI, por sus siglas en inglés) refutó los resultados de este estudio: mostró que la incidencia de episodios cardiovasculares era mayor en las mujeres que usaban terapia hormonal posmenopáusica [5].

Establecer un vínculo causal: ensayos clínicos. Un ensayo clínico es un estudio experimental en el que se observan los efectos de una intervención terapéutica con el propósito principal de evaluar y cuantificar su eficacia clínica [6].

Por tanto, un ensayo clínico es un experimento científico que se ejecuta para confirmar la hipótesis predefinida de que existe una relación causal entre una intervención (por ejemplo, la administración de un tratamiento) y el estado de salud del paciente mientras recibe la intervención, o después. Si la intervención es un tratamiento, el experimento consiste, por ejemplo, en administrar el tratamiento en estudio a un grupo de pacientes y el tratamiento habitual a otro grupo de pacientes inscritos en el mismo ensayo clínico. Si no existe ningún tratamiento de referencia, el tratamiento en estudio se compara con un placebo o con ningún tratamiento [6].

Si la comparación se hace con un grupo de pacientes que se formó de manera diferente, como los pacientes inscritos en otro ensayo clínico, está sujeto al mismo tipo de sesgo que un estudio observacional. Esto aplica, por ejemplo, a la comparación entre grupos de pacientes que parecen tener características similares, pero a quienes se monitoreó en instituciones diferentes o con años de diferencia. Fuera de algunas excepciones raras, las comparaciones solo son concluyentes si son directas y se hacen entre pacientes inscritos en el mismo ensayo clínico (b).

Comparación directa para una mejor evaluación
En la década de 1950, algunos cirujanos en Parma y Filadelfia propusieron tratar la angina de pecho ligando las arterias mamarias internas, una cirugía que realizaron con anestesia local. Más de la mitad de los pacientes notificaron una mejoría marcada de sus síntomas algunos días o semanas después de someterse al procedimiento. En 1959 y 1960, dos ensayos clínicos aleatorizados compararon la ligadura de las arterias mamarias internas con una cirugía simulada. La mejoría clínica (en algunos casos, espectacular) fue tan frecuente en el grupo que recibió la cirugía simulada como en el grupo en el que se practicó la ligadura.

Con este descubrimiento, se llegó a la conclusión de que la ligadura de las arterias mamarias internas no tenía ninguna eficacia inherente [7].

A comienzos de 2020, un equipo de Marsella (Francia) informó resultados clínicos positivos en pacientes con covid-19 que habían sido tratados con hidroxicloroquina [8]. Durante los meses siguientes, varios ensayos clínicos comparativos establecieron de manera consistente que la evolución de la covid-19, sin importar si al comienzo había sido leve o grave, es la misma para los pacientes tratados con hidroxicloroquina que para los tratados con un placebo [9].

Estos ejemplos ilustran el riesgo de llegar erróneamente a la conclusión de que un tratamiento es eficaz cuando no se lo ha comparado directamente con el tratamiento de referencia, un placebo o ningún tratamiento.

En un ensayo clínico comparativo, se suele dividir a los pacientes en dos grupos y se los monitorea simultáneamente (c). Los participantes en el grupo “intervención” reciben el tratamiento en estudio. Los que están en el otro grupo, el grupo “control”, reciben el tratamiento que se usa habitualmente para tratar ese problema o, si no existe ninguno, un placebo o ningún tratamiento (d) [6]. Al final del ensayo clínico, el estado de salud de los participantes en el grupo que ha recibido la intervención se compara con el grupo control. Sin embargo, para obtener evidencia de alta calidad, es mejor asegurarse de que en el momento de la inscripción la salud de los participantes en los dos grupos sea tan similar como sea posible y de que, antes de comenzar el ensayo clínico, tengan características similares: ese es el propósito de la aleatorización (asignación aleatoria).

Aleatorización para garantizar que los grupos sean idénticos, excepto en el tratamiento que reciben
Para poder asegurar que las diferencias observadas entre el grupo intervención y el grupo control de un ensayo clínico se deben al tratamiento en estudio, es esencial que no exista ninguna otra explicación. Esto se logra formando grupos que tengan las mismas características antes del comienzo del estudio [6].

La aleatorización significa que se utiliza un proceso aleatorio, similar a lanzar una moneda, para asignar a cada participante en el ensayo clínico al grupo que recibirá el tratamiento experimental o al grupo control. Es el método más simple y confiable para garantizar que, exceptuando el tratamiento que recibirán, los participantes inscritos tendrán las mismas características antes del comienzo del ensayo clínico. Mientras más participantes se incluyan en el estudio, más probable será que la aleatorización genere grupos con un pronóstico similar [6].

La aleatorización también evita la posibilidad de que el tratamiento asignado a cada paciente se vea influenciado, consciente o inconscientemente, por la presencia o ausencia de características que podrían afectar la evolución de la enfermedad, como la edad, el estado de salud o la gravedad del problema a tratar [6].

Asimismo, la aleatorización es un prerrequisito para que el análisis estadístico sea significativo (e) [6]. La descripción de las características de los pacientes en el momento en que se lo asigna a un grupo sirve para confirmar, en base a algunas características destacadas y en factores de confusión probables o confirmados, que el azar no ha generado diferencias entre los grupos que podrían alterar los resultados del estudio.

En esencial garantizar que, durante todo el ensayo clínico, las intervenciones que se están comparando sean los únicos factores que podrían contribuir a las diferencias en los efectos observados en cada grupo. Este es el propósito del doble ciego: después de la aleatorización, previene los factores que podrían afectar más a un grupo que al otro [6].

Ocultamiento mediante el doble ciego para minimizar el sesgo y la subjetividad
El propósito del doble ciego es impedir que se produzcan diferencias entre los grupos (además del tratamiento recibido) durante el ensayo clínico, y también prevenir el sesgo en los resultados. El doble ciego significa que ni los pacientes ni los profesionales de la salud saben qué tratamiento recibió cada participante, hasta que el ensayo clínico y el análisis de sus resultados se hayan completado [6].

El tratamiento recibido se oculta a los pacientes para prevenir que modifiquen sus comportamientos relacionados con la salud o que interpreten sus experiencias en base a su conocimiento o sus creencias sobre el tratamiento en estudio [6]. Por ejemplo, sin enmascaramiento, es probable que los pacientes que saben que no recibieron el tratamiento en evaluación para prevenir eventos cardiovasculares se sientan más inclinados a hacer ejercicio o dejar de fumar.

Los profesionales de la salud desconocen si el participante está recibiendo el tratamiento para evitar que esta información influya, consciente o inconscientemente, en sus decisiones sobre el seguimiento del paciente o en la introducción de otros tratamientos [6]. Por ejemplo, cuando no hay enmascaramiento y el médico sabe si un paciente recibe o no el tratamiento experimental, esa información podría inducirlo a usar más o menos tratamientos adicionales o a monitorear al paciente con mayor o menor cuidado.

Por último, el tratamiento recibido se oculta de los evaluadores para prevenir que esta información influya en su valoración. Por ejemplo, si saben que un paciente recibió el tratamiento bajo evaluación para la prevención cardiovascular, podría ocasionar que atribuyeran erróneamente la muerte de un paciente a una causa no cardiovascular.

Seleccionar criterios de valoración que sean importantes para los pacientes
La evidencia de la eficacia en un ensayo clínico aleatorizado, comparativo y de doble ciego no necesariamente prueba que el tratamiento sea beneficioso. También es necesario asegurar que la eficacia demostrada se corresponde con una mejoría real para los pacientes [1].

Criterios de valoración indirectos: rara vez son útiles para los pacientes. En ocasiones, la posible eficacia de un tratamiento se evalúa en base a criterios de valoración no clínicos, que no constituyen un beneficio real para los pacientes. Cuando se presume que un criterio se asocia a una mejoría clínica, se lo llama criterio de valoración indirecto. Algunos ejemplos incluyen las concentraciones séricas de colesterol, la presión arterial, los niveles de hemoglobina glicosilada en sangre (HbA1c), la extrasístole ventricular en un electrocardiograma, la densidad mineral ósea o la evidencia radiográfica de fracturas vertebrales asintomáticas. Los criterios de valoración clínicos reales, como la muerte, la dificultad respiratoria, los trastornos visuales asociados a la retinopatía diabética, las fracturas óseas sintomáticas, y el malestar o la incapacidad que los pacientes pueden experimentar en su vida diaria son más útiles para medir la mejoría o el deterioro de la salud de un paciente [1].

Demostrar que un tratamiento tiene un efecto positivo sobre un criterio de valoración indirecto no prueba que esa mejoría se aplique a los criterios de valoración clínicos que son importantes para los pacientes. Por ejemplo, se ha demostrado que el clofibrato reduce el colesterol sérico, pero aumenta la mortalidad; se probó que la rosiglitazona reduce el HbA1c, pero aumenta el riesgo de insuficiencia cardíaca; se probó que el fluoruro aumenta la densidad ósea, pero aumenta el riesgo de fracturas; y se probó que la flecainida reduce la frecuencia de la extrasístole ventricular tras un infarto del miocardio, pero aumenta el riesgo de muerte súbita [10-14].

En ocasiones, es razonable usar un criterio de valoración indirecto que se correlacione estrechamente con la evolución clínica de una enfermedad y no con los criterios de valoración clínicos. El uso de la carga viral de VIH como criterio de valoración indirecto al evaluar tratamientos antirretrovirales es un ejemplo de eso [1].

En la práctica: los ensayos clínicos aleatorizados, comparativos y de doble ciego siguen siendo la mejor herramienta para la evaluación, pero tienen algunas limitaciones
Los ensayos clínicos aleatorizados, comparativos y de doble ciego constituyen la herramienta de evaluación más sólida para demostrar la posible eficacia de un tratamiento. Sin embargo, demostrar un efecto sobre un criterio de valoración clínicamente relevante en un ensayo clínico aleatorizado, comparativo y de doble ciego no es suficiente para demostrar su eficacia real en los pacientes. Es necesario, además, que no haya fallas en el diseño del ensayo clínico, su ejecución o su interpretación, para que sus resultados no estén sesgados. Y, al igual que en cualquier ciencia basada en la experimentación, es importante asegurarse de que los resultados se puedan reproducir, es decir, confirmar los resultados en al menos un ensayo clínico diferente ejecutado por otro equipo.

Incluso si no presentara fallas metodológicas, un ensayo clínico aleatorizado, comparativo y de doble ciego tiene un alcance limitado: mientras más diferentes sean las características de los pacientes y las de los participantes en un ensayo clínico, menos probable será que esos resultados se puedan trasladar a la práctica clínica.

“A menudo, los médicos se jactan de poder curar a todos sus pacientes con algún tratamiento que ellos usan. (…) Podríamos estar sujetos todos los días a los mayores engaños sobre el beneficio de un tratamiento si no tenemos la posibilidad de acceder a un experimento comparativo. Debo recordar solo un ejemplo reciente respecto al tratamiento de la neumonía. El experimento comparativo demostró, de hecho, que el tratamiento de la neumonía con sangrías, que se creía el más eficaz, es una mera ilusión terapéutica”. Claude Bernard (fragmento de la traducción al inglés de Henry Copley Greene del libro Introduction à l’Étude de la Médecine Expérimentale [An Introduction to the Study of Experimental Medicine” 1865]).

La significancia estadística de una asociación o correlación entre dos variables no significa necesariamente que haya una relación causal. El sitio web www.tylervigen.com proporciona muchos ejemplos de correlaciones estadísticamente significativas en las que la relación causal parece muy improbable.

En los casos raros en los que una enfermedad empeora sistemáticamente en el corto plazo si no recibe tratamiento, la evidencia no comparativa de una asociación entre el tratamiento y una mejoría clínica es suficiente para establecer una relación causal entre las dos. Así fue como, en 1922, se demostró que la insulina era un tratamiento eficaz para la diabetes tipo 1, una enfermedad que antes había ocasionado la muerte rápida en casi todos los casos (ref. 15).

Otro tipo de ensayo, llamado ensayo clínico cruzado, compara varios tratamientos sucesivos en los mismos pacientes. Bajo ciertas condiciones, estos ensayos clínicos pueden ser tan concluyentes como los ensayos con grupos en paralelo (ref.6).

Cuando algunos investigadores, profesionales de la salud o pacientes están convencidos de que un tratamiento experimental será más eficaz que otros tratamientos disponibles, en ocasiones sienten que no sería ético ejecutar un ensayo clínico comparativo. Sin embargo, hasta que se haya establecido la superioridad de un tratamiento experimental de manera concluyente, y que justifique el riesgo de que los pacientes experimenten sus efectos adversos conocidos y los que aún no se conocen, se considera ético ejecutar un ensayo clínico comparativo, siempre que el comparador elegido sea el tratamiento de referencia para tratar ese problema. La comparación con un placebo o con ningún tratamiento solo se considera éticamente aceptable cuando no existe ningún tratamiento de referencia bien establecido (ref.16).

Las pruebas estadísticas se basan en la suposición de que los grupos comparados se formaron mediante una asignación aleatoria. Cuantifican la probabilidad de que solo el azar produjo una diferencia entre los grupos tan grande como (o incluso más grande que) el efecto observado, bajo la “hipótesis nula” de que los tratamientos comparados tienen los mismos efectos (ref.6).

Referencias seleccionadas de la revisión bibliográfica de Prescrire

Prescrire Editorial Staff “Evaluation of treatment benefits: clinical endpoints relevant to patients” Prescrire Int 2008; 17 (98): 260.
Prescrire Editorial Staff “Evaluation of treatment risks: taking clinical data, pharmacology and patient characteristics into account” Prescrire Int 2010; 19 (105): 44-45.
Prescrire Rédaction “Facteurs de confusion: sources de biais majeurs” Rev Prescrire 2009; 29 (310): 618-620.
Grodstein F et al. “Postmenopausal hormone therapy and mortality” N Engl J Med 1997; 336 (25): 1769-1775.
Prescrire Rédaction “Hormonothérapie substitutive de la ménopause. Sans intérêt clinique à long terme” Rev Prescrire 2018; 38 (417): 536.
“The randomized controlled trial”. In: Daly LE et al. “Interpretation and Uses of Medical Statistics” 4th ed., Blackwell Scientific Publications, Oxford, 1991: 214-239.
Miller FG “The enduring legacy of sham-controlled trials of internal mammary artery ligation” Prog Cardiovasc Dis 2012; 55 (3): 246-250.
Prescrire Editorial Staff “Hydroxychloroquine: the situation is critical” Prescrire Int 2020; 29 (219): 227.
Prescrire Editorial Staff “Hydroxychloroquine in covid-19: no proven efficacy, including in less severe forms of the disease” 24 July 2020.
Prescrire Rédaction “Quelle place pour les fibrates en prévention cardiovasculaire?” Rev Prescrire 2001; 21 (219): 555-556.
Prescrire Rédaction “Rosiglitazone: la triste saga continue” Rev Prescrire 2010; 30 (324): 742.
Riggs BL et al. “Effect of fluoride treatment on the fracture rate in postmenopausal women with osteoporosis” N Engl J Med 1990; 322 (12): 802-809.
Prescrire Rédaction “Le risque de mort par antiarythmique. Les résultats préliminaires d’une étude importante” Rev Prescrire 1989; 9 (87): 295-296.
Prescrire Editorial Staff “Flecainide: fatalities and cardiac arrests?” Prescrire Int 2022; 31 (234): 46-47.
Banting FG et al. “Pancreatic extracts in the treatment of diabetes mellitus” Can Med Assoc J 1922; 12 (3): 141-146.
Prescrire Rédaction “Évaluer le progrès thérapeutique: avec méthode, au service des patients” Rev Prescrire 2015; 35 (382): 565-569.

creado el 11 de Diciembre de 2023