Actualmente, muchos modelos de inteligencia artificial (IA) de atención médica funcionan bien en ciertos entornos, pero pueden experimentar caídas en el rendimiento una vez que se implementan en otras áreas.Averiguar cuándo y cómo los modelos médicos de IA y aprendizaje automático (ML) fallan o aportan una solución para la toma ...
Actualmente, muchos modelos de inteligencia artificial (IA) de atención médica funcionan bien en ciertos entornos, pero pueden experimentar caídas en el rendimiento una vez que se implementan en otras áreas.Averiguar cuándo y cómo los modelos médicos de IA y aprendizaje automático (ML) fallan o aportan una solución para la toma de decisiones clínicas que no es efectiva en la práctica es la misión que decidieron emprender investigadores de la Facultad de Medicina Carle Illinois (CI MED) de la Universidad de Illinois (EEUU).
"Cada dominio en el cuidado de la salud usa el aprendizaje automático de una forma u otra, por lo que se están convirtiendo en el pilar de los diagnósticos y pronósticos computacionales en el cuidado de la salud", recordó Yogatheesan Varatharajah, profesor asistente de investigación en el Departamento de Bioingeniería de la Universidad de Illinois en Urbana-Champaign. "El problema es que cuando hacemos estudios basados en el aprendizaje automático, para desarrollar una herramienta de diagnóstico, el modelo funciona bien en un entorno de prueba limitado y, en ese momento, se considera listo para continuar. Pero cuando lo implementamos en la práctica habitual para tomar decisiones clínicas en tiempo real, muchos de estos enfoques no funcionan como se esperaba", añadió.
Desconexión del mundo real
Una de las razones más comunes de esta diferencia entre los modelos y el mundo real es la variabilidad natural entre los datos recopilados que se utilizan para crear un modelo y los datos recopilados después de implementar un modelo. Esa variabilidad podría provenir del hardware o protocolo utilizado para recopilar los datos, o simplemente de las diferencias entre los pacientes dentro y fuera del modelo. "Estas pequeñas diferencias pueden sumar cambios significativos en las predicciones del modelo y, potencialmente, disponer de un modelo que no ayuda a los pacientes", según explicó el prof.Varatharajah.
Varatharajah y sus alumnos centraron sus esfuerzos en modelos de aprendizaje automático basados en datos electrofisiológicos de pacientes con enfermedades neurológicas,. A partir de ahí, el equipo analizó aplicaciones clínicamente relevantes, como comparar EEG normales con anomalías para determinar si era posible diferenciarlos.
"Observamos qué tipo de variabilidad puede ocurrir en el mundo real, especialmente aquellas variabilidades que podrían causar problemas a los modelos de aprendizaje automático", indicó el experto. "Seguidamente, modelamos esas variabilidades y desarrollamos algunas medidas de ´diagnóstico´ para diagnosticar los propios modelos, para saber cuándo y cómo van a fallar. Como resultado, podemos ser conscientes de estos errores y tomar medidas para mitigarlos antes de tiempo para que los modelos puedan ayudar a los médicos en la toma de decisiones clínicas".
La importancia de este trabajo radica en identificar la desconexión entre los datos en los que se entrenan los modelos de IA, en comparación con los escenarios del mundo real con los que interactúan cuando se implementan en hospitales", indicó, por su parte, otro coautor del trabajo, Sam Rawal. "Ser capaz de identificar tales escenarios en el mundo real, donde los modelos pueden fallar o funcionar de manera inesperada, puede ayudar a guiar su implementación y garantizar que se utilicen de manera segura y efectiva", concluyó.