Ensayos clínicos comparativos, aleatorizados y de doble ciego: la base de una estrategia científica rigurosa
Un tratamiento es eficaz cuando previene las manifestaciones o la evolución habitual de una enfermedad o tiene un efecto positivo sobre esos aspectos, por ejemplo, al aliviar los síntomas, acelerar la recuperación, reducir la incidencia de complicaciones o la recurrencia, o alargar la supervivencia [1].
¿Cuál es la mejor manera de demostrar la eficacia de un tratamiento? En otras palabras, ¿cómo se establece una relación causal entre el tratamiento y una mejoría clínica de suficiente magnitud como para justificar el riesgo de experimentar los daños conocidos —y los que aún no se conocen— de un medicamento?
Este artículo se basa en la revisión bibliográfica de Prescrire, sobre todo en lo que concierne a la evaluación de nuevos medicamentos y otros tratamientos. En el texto, se explica el significado de los siguientes términos: ensayo clínico, comparativo, aleatorizado, doble ciego y criterio de valoración clínico.
Experimentación en lugar de simple observación
En el ámbito de la investigación clínica, existen dos tipos diferentes de estudios: los observacionales o descriptivos, y los de intervención o experimentales [2,3].
Estudios observacionales: describir sin intervenir. En un estudio observacional, se observa a un grupo de personas (una “cohorte”) que no está recibiendo una intervención adicional, además del tratamiento habitual, para cambiar la evolución de su salud. Estos estudios aportan información útil para evaluar un tratamiento, en particular para formular hipótesis sobre sus efectos y estimar la frecuencia de los efectos adversos [2]. Sin embargo, no demuestran una relación causal entre los efectos observados y el tratamiento recibido: no aportan pruebas sobre la eficacia de un tratamiento.
Por ejemplo, un estudio que usó datos de 121.700 mujeres, recabados entre 1976 y 1994, sugirió que la mortalidad era más baja entre las que usaban terapia hormonal posmenopáusica que entre las que no la usaban. La diferencia parecía ser más marcada en las mujeres con factores de riesgo para padecer episodios cardiovasculares. Se consideró estadísticamente significativa después de aplicar algunos “ajustes”, por ejemplo, hacer algunos cálculos para tomar en cuenta algunas diferencias entre quienes usaban ese tratamiento y quienes no, que se relacionaban principalmente con el peso corporal, si eran fumadoras, la presencia o ausencia de hipertensión y otros factores asociados a un aumento del riesgo de muerte prematura [4].
Cuidado con los factores de confusión que no se toman en cuenta. Este estudio observacional estableció la existencia de una asociación estadística — en esta cohorte de mujeres— entre el uso de terapia hormonal posmenopáusica y la mortalidad [4]. No obstante, esta asociación estadística se puede explicar de muchas maneras, además del uso de este tratamiento. Por ejemplo, es probable que las mujeres que elegían usar una terapia hormonal posmenopáusica (que, para ese momento, había sido considerada beneficiosa durante mucho tiempo) hubieran prestado más atención a su salud que las que no la usaban y hayan hecho ejercicio con regularidad, hayan tenido una dieta más saludable y, probablemente, se hayan sometido a más controles de salud, etc. Estos factores de “confusión”, si no estaban distribuidos equitativamente entre ambos grupos de mujeres, podrían haber contribuido a la mortalidad más baja que se observó entre las usuarias de terapia hormonal posmenopáusica. La confusión es una de las muchas causas de sesgo que se deben tomar en cuenta cuando se analizan los resultados de este tipo de estudios [3].
Otra posibilidad es que esta asociación estadística sea simplemente resultado del azar (a).
Más adelante, a comienzos de la década de 2000, un ensayo clínico aleatorizado, comparativo y de doble ciego de mayor tamaño llamado Iniciativa de Salud de la Mujer (WHI, por sus siglas en inglés) refutó los resultados de este estudio: mostró que la incidencia de episodios cardiovasculares era mayor en las mujeres que usaban terapia hormonal posmenopáusica [5].
Establecer un vínculo causal: ensayos clínicos. Un ensayo clínico es un estudio experimental en el que se observan los efectos de una intervención terapéutica con el propósito principal de evaluar y cuantificar su eficacia clínica [6].
Por tanto, un ensayo clínico es un experimento científico que se ejecuta para confirmar la hipótesis predefinida de que existe una relación causal entre una intervención (por ejemplo, la administración de un tratamiento) y el estado de salud del paciente mientras recibe la intervención, o después. Si la intervención es un tratamiento, el experimento consiste, por ejemplo, en administrar el tratamiento en estudio a un grupo de pacientes y el tratamiento habitual a otro grupo de pacientes inscritos en el mismo ensayo clínico. Si no existe ningún tratamiento de referencia, el tratamiento en estudio se compara con un placebo o con ningún tratamiento [6].
Si la comparación se hace con un grupo de pacientes que se formó de manera diferente, como los pacientes inscritos en otro ensayo clínico, está sujeto al mismo tipo de sesgo que un estudio observacional. Esto aplica, por ejemplo, a la comparación entre grupos de pacientes que parecen tener características similares, pero a quienes se monitoreó en instituciones diferentes o con años de diferencia. Fuera de algunas excepciones raras, las comparaciones solo son concluyentes si son directas y se hacen entre pacientes inscritos en el mismo ensayo clínico (b).
Comparación directa para una mejor evaluación
En la década de 1950, algunos cirujanos en Parma y Filadelfia propusieron tratar la angina de pecho ligando las arterias mamarias internas, una cirugía que realizaron con anestesia local. Más de la mitad de los pacientes notificaron una mejoría marcada de sus síntomas algunos días o semanas después de someterse al procedimiento. En 1959 y 1960, dos ensayos clínicos aleatorizados compararon la ligadura de las arterias mamarias internas con una cirugía simulada. La mejoría clínica (en algunos casos, espectacular) fue tan frecuente en el grupo que recibió la cirugía simulada como en el grupo en el que se practicó la ligadura.
Con este descubrimiento, se llegó a la conclusión de que la ligadura de las arterias mamarias internas no tenía ninguna eficacia inherente [7].
A comienzos de 2020, un equipo de Marsella (Francia) informó resultados clínicos positivos en pacientes con covid-19 que habían sido tratados con hidroxicloroquina [8]. Durante los meses siguientes, varios ensayos clínicos comparativos establecieron de manera consistente que la evolución de la covid-19, sin importar si al comienzo había sido leve o grave, es la misma para los pacientes tratados con hidroxicloroquina que para los tratados con un placebo [9].
Estos ejemplos ilustran el riesgo de llegar erróneamente a la conclusión de que un tratamiento es eficaz cuando no se lo ha comparado directamente con el tratamiento de referencia, un placebo o ningún tratamiento.
En un ensayo clínico comparativo, se suele dividir a los pacientes en dos grupos y se los monitorea simultáneamente (c). Los participantes en el grupo “intervención” reciben el tratamiento en estudio. Los que están en el otro grupo, el grupo “control”, reciben el tratamiento que se usa habitualmente para tratar ese problema o, si no existe ninguno, un placebo o ningún tratamiento (d) [6]. Al final del ensayo clínico, el estado de salud de los participantes en el grupo que ha recibido la intervención se compara con el grupo control. Sin embargo, para obtener evidencia de alta calidad, es mejor asegurarse de que en el momento de la inscripción la salud de los participantes en los dos grupos sea tan similar como sea posible y de que, antes de comenzar el ensayo clínico, tengan características similares: ese es el propósito de la aleatorización (asignación aleatoria).
Aleatorización para garantizar que los grupos sean idénticos, excepto en el tratamiento que reciben
Para poder asegurar que las diferencias observadas entre el grupo intervención y el grupo control de un ensayo clínico se deben al tratamiento en estudio, es esencial que no exista ninguna otra explicación. Esto se logra formando grupos que tengan las mismas características antes del comienzo del estudio [6].
La aleatorización significa que se utiliza un proceso aleatorio, similar a lanzar una moneda, para asignar a cada participante en el ensayo clínico al grupo que recibirá el tratamiento experimental o al grupo control. Es el método más simple y confiable para garantizar que, exceptuando el tratamiento que recibirán, los participantes inscritos tendrán las mismas características antes del comienzo del ensayo clínico. Mientras más participantes se incluyan en el estudio, más probable será que la aleatorización genere grupos con un pronóstico similar [6].
La aleatorización también evita la posibilidad de que el tratamiento asignado a cada paciente se vea influenciado, consciente o inconscientemente, por la presencia o ausencia de características que podrían afectar la evolución de la enfermedad, como la edad, el estado de salud o la gravedad del problema a tratar [6].
Asimismo, la aleatorización es un prerrequisito para que el análisis estadístico sea significativo (e) [6]. La descripción de las características de los pacientes en el momento en que se lo asigna a un grupo sirve para confirmar, en base a algunas características destacadas y en factores de confusión probables o confirmados, que el azar no ha generado diferencias entre los grupos que podrían alterar los resultados del estudio.
En esencial garantizar que, durante todo el ensayo clínico, las intervenciones que se están comparando sean los únicos factores que podrían contribuir a las diferencias en los efectos observados en cada grupo. Este es el propósito del doble ciego: después de la aleatorización, previene los factores que podrían afectar más a un grupo que al otro [6].
Ocultamiento mediante el doble ciego para minimizar el sesgo y la subjetividad
El propósito del doble ciego es impedir que se produzcan diferencias entre los grupos (además del tratamiento recibido) durante el ensayo clínico, y también prevenir el sesgo en los resultados. El doble ciego significa que ni los pacientes ni los profesionales de la salud saben qué tratamiento recibió cada participante, hasta que el ensayo clínico y el análisis de sus resultados se hayan completado [6].
El tratamiento recibido se oculta a los pacientes para prevenir que modifiquen sus comportamientos relacionados con la salud o que interpreten sus experiencias en base a su conocimiento o sus creencias sobre el tratamiento en estudio [6]. Por ejemplo, sin enmascaramiento, es probable que los pacientes que saben que no recibieron el tratamiento en evaluación para prevenir eventos cardiovasculares se sientan más inclinados a hacer ejercicio o dejar de fumar.
Los profesionales de la salud desconocen si el participante está recibiendo el tratamiento para evitar que esta información influya, consciente o inconscientemente, en sus decisiones sobre el seguimiento del paciente o en la introducción de otros tratamientos [6]. Por ejemplo, cuando no hay enmascaramiento y el médico sabe si un paciente recibe o no el tratamiento experimental, esa información podría inducirlo a usar más o menos tratamientos adicionales o a monitorear al paciente con mayor o menor cuidado.
Por último, el tratamiento recibido se oculta de los evaluadores para prevenir que esta información influya en su valoración. Por ejemplo, si saben que un paciente recibió el tratamiento bajo evaluación para la prevención cardiovascular, podría ocasionar que atribuyeran erróneamente la muerte de un paciente a una causa no cardiovascular.
Seleccionar criterios de valoración que sean importantes para los pacientes
La evidencia de la eficacia en un ensayo clínico aleatorizado, comparativo y de doble ciego no necesariamente prueba que el tratamiento sea beneficioso. También es necesario asegurar que la eficacia demostrada se corresponde con una mejoría real para los pacientes [1].
Criterios de valoración indirectos: rara vez son útiles para los pacientes. En ocasiones, la posible eficacia de un tratamiento se evalúa en base a criterios de valoración no clínicos, que no constituyen un beneficio real para los pacientes. Cuando se presume que un criterio se asocia a una mejoría clínica, se lo llama criterio de valoración indirecto. Algunos ejemplos incluyen las concentraciones séricas de colesterol, la presión arterial, los niveles de hemoglobina glicosilada en sangre (HbA1c), la extrasístole ventricular en un electrocardiograma, la densidad mineral ósea o la evidencia radiográfica de fracturas vertebrales asintomáticas. Los criterios de valoración clínicos reales, como la muerte, la dificultad respiratoria, los trastornos visuales asociados a la retinopatía diabética, las fracturas óseas sintomáticas, y el malestar o la incapacidad que los pacientes pueden experimentar en su vida diaria son más útiles para medir la mejoría o el deterioro de la salud de un paciente [1].
Demostrar que un tratamiento tiene un efecto positivo sobre un criterio de valoración indirecto no prueba que esa mejoría se aplique a los criterios de valoración clínicos que son importantes para los pacientes. Por ejemplo, se ha demostrado que el clofibrato reduce el colesterol sérico, pero aumenta la mortalidad; se probó que la rosiglitazona reduce el HbA1c, pero aumenta el riesgo de insuficiencia cardíaca; se probó que el fluoruro aumenta la densidad ósea, pero aumenta el riesgo de fracturas; y se probó que la flecainida reduce la frecuencia de la extrasístole ventricular tras un infarto del miocardio, pero aumenta el riesgo de muerte súbita [10-14].
En ocasiones, es razonable usar un criterio de valoración indirecto que se correlacione estrechamente con la evolución clínica de una enfermedad y no con los criterios de valoración clínicos. El uso de la carga viral de VIH como criterio de valoración indirecto al evaluar tratamientos antirretrovirales es un ejemplo de eso [1].
En la práctica: los ensayos clínicos aleatorizados, comparativos y de doble ciego siguen siendo la mejor herramienta para la evaluación, pero tienen algunas limitaciones
Los ensayos clínicos aleatorizados, comparativos y de doble ciego constituyen la herramienta de evaluación más sólida para demostrar la posible eficacia de un tratamiento. Sin embargo, demostrar un efecto sobre un criterio de valoración clínicamente relevante en un ensayo clínico aleatorizado, comparativo y de doble ciego no es suficiente para demostrar su eficacia real en los pacientes. Es necesario, además, que no haya fallas en el diseño del ensayo clínico, su ejecución o su interpretación, para que sus resultados no estén sesgados. Y, al igual que en cualquier ciencia basada en la experimentación, es importante asegurarse de que los resultados se puedan reproducir, es decir, confirmar los resultados en al menos un ensayo clínico diferente ejecutado por otro equipo.
Incluso si no presentara fallas metodológicas, un ensayo clínico aleatorizado, comparativo y de doble ciego tiene un alcance limitado: mientras más diferentes sean las características de los pacientes y las de los participantes en un ensayo clínico, menos probable será que esos resultados se puedan trasladar a la práctica clínica.
“A menudo, los médicos se jactan de poder curar a todos sus pacientes con algún tratamiento que ellos usan. (…) Podríamos estar sujetos todos los días a los mayores engaños sobre el beneficio de un tratamiento si no tenemos la posibilidad de acceder a un experimento comparativo. Debo recordar solo un ejemplo reciente respecto al tratamiento de la neumonía. El experimento comparativo demostró, de hecho, que el tratamiento de la neumonía con sangrías, que se creía el más eficaz, es una mera ilusión terapéutica”. Claude Bernard (fragmento de la traducción al inglés de Henry Copley Greene del libro Introduction à l’Étude de la Médecine Expérimentale [An Introduction to the Study of Experimental Medicine” 1865]).
Referencias seleccionadas de la revisión bibliográfica de Prescrire