¿Cómo puede la industria procesar toda la información que se produce?

Mayo 2019

Inicio

Gestión de los Ensayos Clínicos, Metodología, Costos y Conflictos de Interés

¿Cómo puede la industria procesar toda la información que se produce?
Salud y Fármacos, 1 de mayo de 2019

La base de artículos publicados PubMed tiene más de 27 millones de artículos y en clinicaltrials.gov se han registrado más de 280.000 ensayos clínicos. ¿Cómo se puede procesar y sintetizar toda esta información?

Hay varias iniciativas en curso. Maggie Lynch entrevistó a Malaikannan Sankarasubbu, vicepresidente de investigación de Inteligencia Artificial (IA) en Saama Technologies quién utiliza técnicas de procesamiento del lenguaje natural (NLU). A continuación, resumimos los puntos más destacados de la entrevista [1].

El Sr Sankarasubbu dijo que la industria tiene que trabajar con una gran cantidad de texto no estructurado y que la IA tiene dificultades para entender el lenguaje. Esto se debe a que la programación tradicional basada en reglas no puede interpretar el contexto de una frase, un escrito o un pensamiento. Hay una gran cantidad de combinaciones y permutaciones que se pueden hacer, y para hacer una mejor lectura hay que utilizar sistemas de IA basados en un aprendizaje más profundo.

Las computadoras utilizan un lenguaje basado en números. Por lo tanto, para que una computadora entienda el texto, se debe convertir a números. Para eso existen varios programas, Google en 2014 desarrolló el algoritmo Word2vec. Este algoritmo funciona de la misma forma que lo hace nuestro cerebro cuando nos dan una frase incompleta y tenemos que adivinar la palabra o el verbo que falta. Es decir, analizando las palabras circundantes podemos predecir la palabra que falta. Word2vec funciona de esta manera también y convierte las palabras a una forma numérica que las computadoras pueden entender. Hay otros programas que han surgido recientemente que convierten las palabras en técnicas de formato vectorial como ULMFit, ELMO, BERT etc.

En Saama Technologies, primero capacitamos usando un modelo de integración en datos farmacológicos para brindarles el conocimiento necesario sobre este dominio específico, y luego lo utilizamos para nuestros algoritmos posteriores. Esta forma de utilizar la IA ofrece grandes ventajas a la industria de las ciencias de la vida.

El grupo de farmacovigilancia de una empresa no puede procesar manualmente el millón de artículos que se publican en PubMed cada año. No pueden leer los documentos, sacar información y establecer relaciones entre ellos. Con la tecnología NLU, este problema de extracción de información e identificar relaciones se aborda como si fuera un problema de comprensión de lectura a través de una serie de preguntas y respuestas.

Otra forma de solucionar el problema sería cambiar la forma en que se recopilan los datos, pero es muy difícil lograr que los médicos ingresen los datos en un formato específico, ya que el objetivo del médico es tratar a los pacientes, y no ingresar los datos de la forma que le interesa a la industria.

El diseño del protocolo es un proceso que consume tiempo. Incluir los criterios de inclusión / exclusión correctos con el conjunto correcto de valores es muy importante para el ensayo clínico. Los 280.000 ensayos en ClinicalTrials.gov contienen los criterios de inclusión / exclusión que se usaron para ejecutar cada ensayo. Si el diseñador del protocolo de un nuevo ensayo pudiera agregar y acceder a otros ensayos con criterios de inclusión y exclusión similares, así como a la información sobre lo que sucedió con el ensayo, obtendría datos de gran utilidad. Las búsquedas de similitud no se basan en palabras clave sino en contexto, y se producen en el espacio de los vectores. Los sistemas de inteligencia artificial definitivamente pueden ayudar a un diseñador de protocolos.

La creación de cohortes con criterios de inclusión / exclusión es un proceso laborioso. Los sistemas basados en IA pueden extraer los criterios de inclusión y exclusión del protocolo de un ensayo y aislar entidades como género, edad, sexo, diagnóstico, procedimientos, valores de laboratorio, etc., luego convertirlos en una consulta SQL (definir) para identificar a los pacientes adecuados. En las bases de datos de historias clínicas electrónicas (HCE) este enfoque puede ayudar a identificar a los pacientes no solo para el ensayo del patrocinador, sino también para el ensayo de la competencia y los ensayos anteriores.

Emparejar a los pacientes con los ensayos clínicos adecuados es una tarea complicada, que requiere mucho tiempo. La mayoría de los algoritmos actuales utilizan solo datos estructurados en EHR y datos de la práctica clínica o de la vida real (RWE) para emparejar a los pacientes.

Las historias clínicas electrónicas no fueron diseñadas para emparejar pacientes con ensayos clínicos; se diseñaron para optimizar la facturación de las compañías de seguros de salud.

El diseño del modelo de recopilación de datos es para ese propósito. La información realmente rica está en las notas de los médicos, pero estas notas no se pueden usar para emparejar al paciente, a menos que se borre la información de salud protegida (PHI) por leyes de confidencialidad.

Identificar y borrar el nombre de una persona en un documento es muy difícil, porque hay gran variedad de nombres. Por lo tanto, es muy difícil hacerlo con un sistema basado en reglas. Los sistemas NLU de última generación pueden eliminar de manera efectiva la información protegida de las notas de los médicos. Una vez se borran estos datos, se pueden utilizar las notas para extraer el diagnóstico, la progresión de la enfermedad, los procedimientos, etc.

Este campo esta evolucionando mucho en los últimos años y tendrá un impacto considerable en como se procesa la información.

Referencia

Maggie Lynch. Solving pharma’s ‘big text’ problem with NLP. Outsourcing Pharma, 21-Feb-2019 https://www.outsourcing-pharma.com/Article/2019/02/21/Solving-pharma-s-big-text-problem-with-NLP?

creado el 4 de Diciembre de 2020