Si la IA realmente va a marcar la diferencia para los pacientes, necesitamos saber cómo funciona cuando los humanos reales la tienen en sus manos, en situaciones reales.
La pandemia del covid-19 está llevando los recursos hospitalarios al límite en muchos países del mundo. No es de extrañar que muchas personas esperen que la IA pueda acelerar la detección de pacientes y aliviar la tensión del personal clínico . Pero un estudio de Google Health, el primero en analizar el impacto de una herramienta de aprendizaje profundo en entornos clínicos reales, revela que incluso las IA más precisas pueden empeorar las cosas si no se adaptan a los entornos clínicos en los que trabajarán.
Las reglas existentes para implementar IA en entornos clínicos, como los estándares para la aprobación de la FDA en los EE. UU. O una marca CE en Europa, se centran principalmente en la precisión. No existen requisitos explícitos de que una IA deba mejorar el resultado para los pacientes, en gran parte porque dichos ensayos aún no se han realizado. Pero eso debe cambiar, dice Emma Beede, investigadora de UX en Google Health: “Tenemos que entender cómo las herramientas de IA funcionarán para las personas en contexto, especialmente en el cuidado de la salud, antes de que se implementen ampliamente”.
La primera oportunidad de Google para probar la herramienta en un entorno real provino de Tailandia. El ministerio de salud del país ha establecido una meta anual de examinar al 60% de las personas con diabetes para detectar la retinopatía diabética, que puede causar ceguera si no se detecta a tiempo. Pero con alrededor de 4,5 millones de pacientes y sólo 200 especialistas en retina, aproximadamente el doble de la proporción en los EE. UU., Las clínicas están luchando por alcanzar el objetivo. Google tiene la aprobación de la marca CE, que cubre Tailandia, pero aún está esperando la aprobación de la FDA. Entonces, para ver si la IA podía ayudar, Beede y sus colegas equiparon 11 clínicas en todo el país con un sistema de aprendizaje profundo capacitado para detectar signos de enfermedades oculares en pacientes con diabetes.
En el sistema que había estado usando Tailandia, las enfermeras toman fotografías de los ojos de los pacientes durante los chequeos y las envían para que las examine un especialista en otro lugar, un proceso que puede demorar hasta 10 semanas. La IA desarrollada por Google Health puede identificar signos de retinopatía diabética a partir de un escaneo ocular con más del 90% de precisión, lo que el equipo llama “nivel de especialista humano”, y, en principio, dar un resultado en menos de 10 minutos. El sistema analiza imágenes en busca de indicadores reveladores de la afección, como vasos sanguíneos bloqueados o con fugas.
Suena impresionante. Pero una evaluación de precisión de un laboratorio solo llega hasta cierto punto. No dice nada de cómo funcionará la IA en el caos de un entorno del mundo real, y esto es lo que el equipo de Google Health quería averiguar. Durante varios meses, observaron a las enfermeras que realizaban exploraciones oculares y las entrevistaron sobre sus experiencias con el nuevo sistema. La retroalimentación no fue del todo positiva.
Cuando funcionó bien, la IA aceleró las cosas. Pero a veces no dio ningún resultado. Como la mayoría de los sistemas de reconocimiento de imágenes, el modelo de aprendizaje profundo se había entrenado en escaneos de alta calidad; para garantizar la precisión, se diseñó para rechazar imágenes que cayeran por debajo de un cierto umbral de calidad. Con las enfermeras escaneando a docenas de pacientes por hora y tomando a menudo las fotos en condiciones de poca luz, más de una quinta parte de las imágenes fueron rechazadas.
A los pacientes cuyas imágenes se eliminaron del sistema se les dijo que tendrían que visitar a un especialista en otra clínica otro día. Si les resultaba difícil ausentarse del trabajo o no tenían automóvil, obviamente esto era un inconveniente. Las enfermeras se sintieron frustradas, especialmente cuando creyeron que las exploraciones rechazadas no mostraban signos de enfermedad y que las citas de seguimiento eran innecesarias. A veces perdían el tiempo tratando de retomar o editar una imagen que la IA había rechazado.
Debido a que el sistema tuvo que cargar imágenes en la nube para su procesamiento, las malas conexiones a Internet en varias clínicas también causaron retrasos. “A los pacientes les gustan los resultados instantáneos, pero Internet es lento y los pacientes luego se quejan”, dijo una enfermera. “Han estado esperando aquí desde las 6 am, y durante las primeras dos horas solo pudimos examinar a 10 pacientes”.
El equipo de Google Health ahora está trabajando con el personal médico local para diseñar nuevos flujos de trabajo. Por ejemplo, se podría capacitar a las enfermeras para que utilicen su propio juicio en casos límite. El modelo en sí también podría modificarse para manejar mejor las imágenes imperfectas.
Arriesgando una reacción violenta
“Este es un estudio crucial para cualquier persona interesada en ensuciarse las manos e implementar soluciones de IA en entornos del mundo real”, dice Hamid Tizhoosh de la Universidad de Waterloo en Canadá, que trabaja en IA para imágenes médicas. Tizhoosh es muy crítico con lo que ve como una prisa por anunciar nuevas herramientas de inteligencia artificial en respuesta a covid-19. En algunos casos, las herramientas son desarrolladas y modelos lanzados por equipos sin experiencia en el cuidado de la salud, dice. Considera que el estudio de Google es un recordatorio oportuno de que establecer la precisión en un laboratorio es solo el primer paso.
Michael Abramoff, oculista e informático de los Hospitales y Clínicas de la Universidad de Iowa, ha estado desarrollando una IA para diagnosticar enfermedades de la retina durante varios años y es el director ejecutivo de una empresa emergente llamada IDx Technologies, que ha colaborado con IBM Watson. Abramoff ha sido un animador de la IA para el cuidado de la salud en el pasado, pero también advierte contra las prisas, advirtiendo de una reacción violenta si las personas tienen malas experiencias con la IA. “Estoy muy contento de que Google demuestre que están dispuestos a analizar el flujo de trabajo real en las clínicas”, dice. “Hay mucho más en el cuidado de la salud que los algoritmos”.
Abramoff también cuestiona la utilidad de comparar las herramientas de inteligencia artificial con especialistas humanos cuando se trata de precisión. Por supuesto, no queremos que una IA haga una mala decisión. Pero los médicos humanos no están de acuerdo todo el tiempo, dice, y eso está bien. Un sistema de IA debe encajar en un proceso en el que se discuten las fuentes de incertidumbre en lugar de simplemente rechazarlas.
Hágalo bien y los beneficios podrían ser enormes . Cuando funcionó bien, Beede y sus colegas vieron cómo la IA hacía que las personas que eran buenas en su trabajo fueran aún mejores. “Hubo una enfermera que evaluó a 1,000 pacientes por su cuenta, y con esta herramienta es imparable”, dice. “A los pacientes realmente no les importaba que fuera una IA en lugar de un humano leyendo sus imágenes. Les importaba más cuál iba a ser su experiencia “.
Comentarios recientes