Investigadores de la Facultad de Medicina de la Universidad de California en San Diego (EEUU) han demostrado que los modelos de lenguaje grandes (LLM), cuyo ejemplo más conocido es el GPT-4, podrían ayudar a automatizar la investigación genómica funcional, que busca determinar qué hacen los genes y cómo interactúan. El estudio, ...
Investigadores de la Facultad de Medicina de la Universidad de California en San Diego (EEUU) han demostrado que los modelos de lenguaje grandes (LLM), cuyo ejemplo más conocido es el GPT-4, podrían ayudar a automatizar la investigación genómica funcional, que busca determinar qué hacen los genes y cómo interactúan.
El estudio, publicado en 'Nature Methods' , fue dirigido por el Dr. Trey Ideker , profesor de la Facultad de Medicina y de la Facultad de Ingeniería Jacobs de la Universidad de California en San Diego, el Dr. Dexter Pratt, arquitecto de software del grupo de Ideker, y Clara Hu, candidata a doctorado en ciencias biomédicas del grupo de Ideker.
El enfoque más utilizado en genómica funcional, llamado enriquecimiento de conjuntos de genes, tiene como objetivo determinar la función de conjuntos de genes identificados experimentalmente comparándolos con bases de datos genómicas existentes. Sin embargo, la biología más interesante y novedosa, a menudo, queda fuera del alcance de las bases de datos establecidas.
El uso de inteligencia artificial (IA) para analizar conjuntos de genes podría ahorrar a los científicos muchas horas de trabajo intensivo y acercar la ciencia un paso más a la automatización de uno de los métodos más utilizados para comprender cómo los genes trabajan juntos para influir en la biología.
Los hallazgos también demuestran el poder de la IA para revolucionar el proceso científico al sintetizar información compleja para generar hipótesis nuevas y comprobables en una fracción del tiempo.
Alto nivel de precisión
Tras probar cinco LLM diferentes, los investigadores descubrieron que GPT-4 era el más exitoso, ya que lograba una tasa de precisión del 73 % en la identificación de funciones comunes de conjuntos de genes seleccionados de una base de datos genómica de uso común.
Cuando se les pidió que analizaran conjuntos de genes aleatorios, GPT-4 se negó a proporcionar un nombre en el 87 % de los casos, lo que demuestra el potencial de GPT-4 para analizar conjuntos de genes con una alucinación mínima. GPT-4 también fue capaz de proporcionar narrativas detalladas para respaldar su proceso de denominación.
Si bien se necesitan más investigaciones para explorar por completo el potencial de los LLM en la automatización de la genómica funcional, el estudio destaca la necesidad de seguir invirtiendo en el desarrollo de los LLM y sus aplicaciones en la genómica y la medicina de precisión.