I+D+I

¿Es ChatGPT una nueva herramienta para resumir la investigación médica?

Un trabajo del Departamento de Medicina Familiar y Salud Comunitaria del Centro Médico de la Universidad de Kansas, analiza la utilidad de la herramienta de inteligencia artificial. Sin embargo, hacen hincapié en la importancia de la evaluación completa del texto para directrices profesionales.

01/04/2024

Un nuevo estudio investiga si los modelos de lenguaje grande (LLM) como ChatGPT-3.5, podrían producir resúmenes de alta calidad, precisos y libres de sesgos de resúmenes de investigaciones médicas y determinar la relevancia de varias revistas y sus artículos para diferentes especialidades médicas. Se trata de un trabajo del Departamento ...

Para analizar esta cuestión, se tomaron muestras aleatorias de diez artículos publicados en 2022 (aún no "vistos" por ChatGPT, ya que ChatGPT fue capacitado con datos anteriores a 2022) de cada una de las 14 revistas seleccionadas. Luego se le pidió a ChatGPT que elaborase el resumen. Posteriormente se le pidió que "autorreflexionara" sobre la calidad, precisión y sesgo de sus propios resúmenes, y evaluara su desempeño en la clasificación de la relevancia de los artículos y revistas para diversas áreas de la medicina (cardiología, medicina pulmonar, medicina de familia, medicina interna, salud pública, atención primaria, neurología, psiquiatría, obstetricia y ginecología y cirugía general). Por otra parte, los médicos humanos también evaluaron la calidad de los resúmenes, la clasificación relevante de la revista y el artículo según la especialidad médica.

Los resultados incluyen un total de 140 resúmenes de resúmenes en 14 revistas. ChatGPT produjo resúmenes que eran un 70% más cortos que los resúmenes elaborados por humanos. Tanto ChatGPT como los revisores médicos calificaron los resúmenes como de alta calidad, alta precisión y bajo sesgo. Sólo en cuatro de los 140 resúmenes se produjeron inexactitudes graves. Se observaron imprecisiones menores en 20 de 140 artículos y en su mayoría estaban relacionadas con la introducción de ambigüedad en el significado o el resumen de detalles que habrían proporcionado contenido adicional, pero no habrían cambiado completamente el significado.

Además, ChatGPT pudo clasificar revistas en especialidades médicas relevantes, pero fue mucho menos capaz de clasificar artículos específicos en especialidades médicas relevantes. Se descubrió que los resúmenes tenían inexactitudes raras, pero importantes, que impiden que se los considere una fuente definitiva de verdad.

Ante estos resultados, se advierte encarecidamente a los médicos de que no se basen únicamente en resúmenes basados en ChatGPT para comprender los métodos y resultados de los estudios, especialmente en situaciones de alto riesgo. Las decisiones médicas críticas deben, por razones obvias, basarse en una evaluación completa del texto completo de los artículos en el contexto de la evidencia disponible a partir de metaanálisis y directrices profesionales. Sin embargo, este estudio sugiere que ChatGPT puede ser útil como herramienta de detección para ayudar a los médicos y científicos ocupados a evaluar más rápidamente si vale la pena realizar una revisión adicional de un artículo.