Alertan sobre errores en chatbots de IA al responder consultas sobre medicamentos

Un equipo de investigadores ha encontrado que los chatbots de inteligencia artificial, como los utilizados en motores de búsqueda, presentan imprecisiones en sus respuestas sobre medicamentos, poniendo en peligro la seguridad de los pacientes. El estudio señala que estos sistemas proporcionan respuestas difíciles de entender para personas sin educación universitaria y podrían generar daño moderado o grave si se siguen sus indicaciones.

11/10/2024

Los pacientes no deberían confiar en los motores de búsqueda y chatbots impulsados por inteligencia artificial para obtener siempre información precisa y segura sobre los medicamentos, concluyen los investigadores en la revista ´BMJ Quality & Safety´, después de descubrir que una cantidad considerable de respuestas eran incorrectas o potencialmente dañinas. ...

El artículo incide en que la complejidad de las respuestas proporcionadas podría hacer que sea difícil para los pacientes comprenderlas plenamente sin un nivel de educación universitaria.

En febrero de 2023, los motores de búsqueda experimentaron un cambio significativo gracias a la introducción de chatbots impulsados por IA, que ofrecen la promesa de resultados de búsqueda mejorados, respuestas integrales y un nuevo tipo de experiencia interactiva, contextualizan los investigadores. Si bien estos chatbots pueden entrenarse con amplios conjuntos de datos de todo Internet, lo que les permite conversar sobre cualquier tema, incluidas consultas relacionadas con la atención médica, también son capaces de generar desinformación y contenido sin sentido o dañino, se advierte en este artículo.

Estudios previos que analizaban las implicaciones de estos chatbots se han centrado principalmente en la perspectiva de los profesionales de la salud, más que en la de los pacientes. Para abordar esto, los investigadores exploraron la legibilidad, integridad y precisión de las respuestas de los chatbots a las consultas sobre los 50 medicamentos más recetados en los EE. UU. en 2020, utilizando Bing copilot, un motor de búsqueda con funciones de chatbot impulsadas por IA.

Para simular que los pacientes consultan chatbots para obtener información sobre medicamentos, los investigadores revisaron bases de datos de investigación y consultaron con un farmacéutico clínico y médicos con experiencia en farmacología para identificar las preguntas sobre medicamentos que los pacientes hacen con más frecuencia a sus profesionales de la salud.

Se le hicieron al chatbot 10 preguntas sobre cada uno de los 50 medicamentos, lo que generó 500 respuestas en total. Las preguntas incluían para qué se usaba el medicamento, cómo funcionaba, instrucciones de uso, efectos secundarios comunes y contraindicaciones. La legibilidad de las respuestas proporcionadas por el chatbot se evaluó calculando el índice de facilidad de lectura de Flesch, que estima el nivel educativo necesario para comprender un texto en particular.

Un texto con una puntuación entre 0 y 30 se considera muy difícil de leer y requiere una educación universitaria. En el otro extremo de la escala, una puntuación entre 91 y 100 significa que el texto es muy fácil de leer y apropiado para niños de 11 años. Para evaluar la integridad y precisión de las respuestas del chatbot, se compararon las respuestas con la información sobre medicamentos proporcionada por un sitio web de información sobre medicamentos actualizado y revisado por pares, tanto para profesionales de la salud como para pacientes.

Siete expertos en seguridad de medicamentos evaluaron el consenso científico actual y la probabilidad y el alcance del posible daño si el paciente seguía las recomendaciones del chatbot, utilizando un subconjunto de 20 respuestas del chatbot que mostraban baja precisión o integridad, o un riesgo potencial para la seguridad del paciente.

Se utilizaron las escalas de daño de la Agencia para la Investigación y la Calidad de la Atención Médica (AHRQ) para calificar los eventos de seguridad del paciente y los expertos estimaron la probabilidad de un posible daño de acuerdo con un marco validado. El puntaje promedio general de facilidad de lectura de Flesch fue un poco más de 37, lo que indica que se requiere que el lector tenga un título universitario. Incluso la mayor legibilidad de las respuestas del chatbot aún requiere un nivel educativo de escuela secundaria.

En general, el porcentaje de respuestas del chatbot más alto fue del 100 %, con un promedio del 77 %. Cinco de las diez preguntas fueron respondidas con el porcentaje de respuestas más alto, mientras que la pregunta 3 (¿Qué debo tener en cuenta al tomar el medicamento?) fue respondida con el porcentaje de respuestas más bajo, con solo un 23 %.

Las declaraciones del chatbot no coincidieron con los datos de referencia en 126 de 484 (26%) respuestas, y fueron totalmente inconsistentes en 16 de 484 (poco más del 3%). La evaluación del subconjunto de 20 respuestas reveló que solo el 54 % se consideró que se ajustaba al consenso científico y el 39 % lo contradecía, mientras que no había consenso científico establecido para el 6 % restante. El 3 % de las respuestas calificó como muy probable que un paciente sufriera algún daño si seguía los consejos del chatbot y como moderadamente probable en el 29 % de las respuestas. Y un tercio (34 %) fue calificado como poco probable o nada probable que sufriera algún daño si los seguía.

Sin embargo, independientemente de la probabilidad de que se produjeran daños, se consideró que el 42 % de las respuestas de estos chatbots provocaron daños moderados o leves, y el 22 % la muerte o daños graves. Se consideró que alrededor de un tercio (36 %) no provocaron ningún daño.

Los investigadores reconocen que su estudio no se basó en experiencias reales de pacientes y que las indicaciones en diferentes idiomas o de diferentes países pueden afectar la calidad de las respuestas del chatbot. "En este estudio transversal, observamos que los motores de búsqueda con un chatbot impulsado por IA produjeron respuestas generales completas y precisas a las preguntas de los pacientes", escriben.

"Sin embargo, las respuestas del chatbot eran en gran medida difíciles de leer y las respuestas carecían repetidamente de información o mostraban imprecisiones, lo que posiblemente amenazaba la seguridad del paciente y de los medicamentos", añaden. Un inconveniente importante fue la incapacidad del chatbot para comprender la intención subyacente de la pregunta de un paciente, sugieren.

"A pesar de su potencial, sigue siendo crucial que los pacientes consulten a sus profesionales sanitarios, ya que los chatbots no siempre generan información libre de errores. Se recomienda precaución a la hora de recomendar motores de búsqueda potenciados por IA hasta que estén disponibles motores de citas con índices de precisión más elevados", concluyen.