֎Una investigación de Google sugiere que los esfuerzos por anonimizar los datos de los pacientes no son infalibles

Mayo 2020

Inicio

Ensayos Clínicos y Ética

֎Una investigación de Google sugiere que los esfuerzos por anonimizar los datos de los pacientes no son infalibles (Google research suggests efforts to anonymize patient data aren’t foolproof)
Erin Brodwin
Statnews, 25 de febrero de 2020
https://www.statnews.com/2020/02/25/google-anonymizing-patient-data-an-uphill-battle/
Traducido por Salud y Fármacos

Google ha estado explorando formas creativas de proteger la información sensible de salud, incluso mientras ha generado críticas (https://www.wsj.com/articles/behind-googles-project-nightingale-a-health-data-gold-mine-of -50 millones de pacientes-11573571867) y escrutinio federal por la posibilidad de que sus empleados hayan tenido acceso a información identificable de los pacientes de uno de los sistemas hospitalarios más grandes del país (https://www.statnews.com/2019/11/13/hhs-probe-google-ascension-project-nightingale/).

Los investigadores del gigante tecnológico describieron su trabajo en un artículo reciente, pero también expusieron con franqueza la magnitud de uno de los mayores desafíos que enfrenta el sistema de salud: aun haciendo el mejor esfuerzo por desidentificar o anonimizar los datos de salud, la información de algunas personas quedaría expuesta (https://bmcmedinformdecismak.biomedcentral.com/articles/10.1186/s12911-020-1026-2).

En otras palabras, no importa el método que utilicen las empresas de tecnología o los sistemas de salud para anonimizar los datos, siempre se filtrará algún subconjunto de información del paciente que lo convierte en identificable.

Los datos anonimizados son una mina de oro para la investigación en salud. Al eliminar de una base de datos las variables que pueden utilizarse para identificar a pacientes determinados, como los nombres, las fechas de nacimiento y las características socioeconómicas, se facilita que los investigadores puedan utilizar ampliamente la base de datos sin tener que obtener el permiso de los pacientes. Recientemente, los investigadores de Google utilizaron una base anonimizada de datos de pacientes para diseñar un algoritmo que pudiera detectar el cáncer de seno en las mamografías (https://www.statnews.com/2020/01/01/google-ai-breast-cancer-study/). Al no incluir las variables que permiten identificar al paciente, disminuye el riesgo de que información confidencial, como su estado de VIH, por ejemplo, se pueda conocer y los perjudique, por ejemplo, desalentando el interés de un empresario en ofrecerle un trabajo.

Pero los métodos existentes para eliminar la información que permite identificar a los pacientes dejan algo que desear.

Según dos estudios recientes [1,2] las herramientas que utilizan el aprendizaje automático para analizar los datos de los pacientes solo logran, en promedio, que el 97% de los récords sean anónimos. (Cuando se trata de una base de datos que contiene millones de pacientes, decenas de miles de pacientes podrían quedar expuestos). Los humanos que realizan el trabajo manualmente son aún peores [3]. Un estudio estableció que solo el 81% de los individuos eran capaces de analizar las bases de datos e identificar las variables que deben eliminarse porque se pueden utilizar para identificar a los pacientes.

“Una pregunta que siempre atormenta a los que están en el campo de la atención médica es: ‘¿Qué tan bueno tiene que ser, para que se considere lo suficientemente bueno?’” dijo a STAT Leonard D’Avolio, profesor asistente de medicina en Harvard y cofundador de una empresa nueva para la mejora del desempeño llamada Cyft.

Entonces, en el nuevo estudio, publicado el 30 de enero en la revista BMC Medical Informatics and Decision Making, 19 investigadores de Google (uno de los cuales se fue a Facebook) trataron de encontrar nuevas formas de anonimizar grandes bases de datos de pacientes.

Los investigadores, la mayoría de los cuales estaban en Israel se centraron en lo que se conoce como “texto libre”, o las notas que escriben los médicos y que no se pueden almacenar en un formato automatizado. El texto libre contiene muchas variables que pueden identificar al paciente, como nombres, nivel socioeconómico, y a menudo una gran parte de la historia del paciente, como su estilo de vida y preferencias, y el nombre de otra persona importante. Los informes de las imágenes de radiología, pruebas de laboratorio, correos electrónicos y llamadas telefónicas también pueden encontrarse como texto libre.

El texto libre jugó un papel en un caso reciente y controvertido que involucra un acuerdo de intercambio de datos de pacientes entre Google y la Universidad de Chicago (https://www.statnews.com/2019/06/26/potential-class-action-lawsuit-accuses-the-university-of-chicago-of-sharing-identifiable-patient-data-with-google/). En una demanda, se alegó que los datos que la universidad había entregado a Google incluían texto libre que no se había anonimizado adecuadamente, además de las fechas en que los pacientes habían acudido a recibir atención.

Los investigadores de Google experimentaron con cuatro formas diferentes de anonimizar los datos. Cada uno requería diferentes niveles de esfuerzo humano, y su objetivo general era encontrar opciones prácticas para que los sistemas de salud protegieran la privacidad del paciente. En algunos casos Google diseñó su propia herramienta para automatizar el trabajo de anonimizar; y en otros utilizó una herramienta automatizada existente.

Al final, incluso los métodos que más trabajo requerían por parte de los investigadores solo lograron anonimizar entre el 97% y el 99% de los datos. Para D’Avolio, que ya había trabajado en procesos de anonimizar con el Departamento de Asuntos de Veteranos y en la Universidad de Vanderbilt, esto no es suficiente.

“Ninguno de los responsables de la toma de decisiones institucionales o de políticas con los que hablé aceptaba un nivel de anonimizar del 99%”, dijo.

El modelo que en este estudio aportó los mejores resultados requirió que seres humanos etiquetaran manualmente una gran cantidad de datos (aproximadamente 10.000 muestras). Luego, Google entrenó a un modelo de aprendizaje automático para anonimizar el resto. Incluso con eso, sin embargo, el desempeño de esta estrategia solo fue un poco mejor que el de otras herramientas de anonimizar existentes, que están disponibles en el mercado.

Dada la cantidad de trabajo que requiere un sistema como este, y dado que añade muy poco a lo que se logra con las herramientas existentes, los investigadores tenían una recomendación clara y simple para los hospitales: usen las herramientas automatizadas existentes antes de comprometerse a diseñar una herramienta totalmente personalizada como la que creó Google.

Google recomendó que los sistemas de salud que tienen suficientes recursos utilicen a seres humanos para etiquetar un subconjunto de los datos manualmente, y con ello personalizar parcialmente las herramientas que automatizan el proceso de desidentificación o anonimizar. Solo hay que etiquetar 20-80 muestras, concluyen en el documento, son suficientes para lograr que una herramienta personalizada funcione ligeramente mejor que una existente, y si se etiquetan 1.000 muestras se obtienen resultados parecidos a los que proporciona una herramienta totalmente personalizada.

Para D’Avolio, esto sugiere que no importa lo que hagan los investigadores, algunos datos de pacientes nunca serán verdaderamente anónimos. Eso coloca a los investigadores como él en una situación complicada.

“La desidentificación debe ser del 100%, y nunca podemos alcanzar el 100% porque es muy difícil para una computadora detectar todas las variaciones posibles”, dijo D’Avolio.

Referencias

Franck Dernoncourt, Ji Young Lee, Ozlem Uzuner, Peter Szolovits, De-identification of patient notes with recurrent neural networks, Journal of the American Medical Informatics Association, Volume 24, Issue 3, May 2017, Pages 596–606, https://doi.org/10.1093/jamia/ocw156
Liu Z et al. De-identification of clinical notes via recurrent neural network and conditional random field. Journal of Biomedical Informatics 2017; 75: S34-S42 https://www.sciencedirect.com/science/article/pii/S1532046417301223?via%3Dihub
Neamatullah, I., Douglass, M.M., Lehman, L.H. et al. Automated de-identification of free-text medical records. BMC Med Inform Decis Mak 8, 32 (2008). https://doi.org/10.1186/1472-6947-8-32

creado el 4 de Diciembre de 2020