Project PID2024-155334OB-I00 coLLMo
Modelos de Lenguaje (LLM) y de Generación Aumentada por Recuperación (RAG) para la Extracción de Información Objetiva de Textos Oncológicos en Español
Funder: MINISTERIO DE CIENCIA E INNOVACION
Call: (MINISTERIO DE CIENCIA E INNOVACION)
Of National scope.
La adopción de la historia clínica electrónica (HCE) como componente clave de los sistemas sanitarios ha permitido el desarrollo de sistemas de apoyo a la toma de decisiones y la automatización de numerosos procesos dentro de ellos, pero sigue planteando una serie de cuestiones que permanecen parcialmente sin resolver. Las HCE almacenan información de naturaleza heterogénea en una amplia variedad de formatos, incluidos documentos de texto libre, que contienen información relacionada con diagnósticos clínicos, tratamientos o procedimientos. Sin embargo, la naturaleza desestructurada de estos campos textuales dificulta especialmente la tarea de extraer automáticamente de ellos conceptos relevantes. En este sentido, la transformación de texto clínico escrito en lenguaje natural en datos estructurados permite su uso en tareas como la planificación de tratamientos y la toma de decisiones en la práctica clínica. Una de las disciplinas médicas que más se beneficia de la extracción automática de información en textos clínicos es la Oncología. En los últimos años, las técnicas de procesamiento del lenguaje natural (PLN) y de inteligencia artificial (IA), y en particular las basadas en grandes modelos de lenguaje (LLM) e IA generativa, se han aplicado a problemas como la codificación clínica oncológica, el reconocimiento y normalización de menciones morfológicas tumorales, la clasificación automática de textos oncológicos, la respuesta a preguntas clínicas y el resumen de historias clínicas. Sin embargo, la mayoría de los estudios existentes en la literatura específica se han centrado sobre todo en documentos oncológicos escritos en inglés. Además, la aplicación de estas técnicas de IA en la atención sanitaria se ve obstaculizada por limitaciones críticas, como la propensión de los LLM generativos a generar información inexacta o sin sentido. Este problema suele denominarse "alucinaciones del modelo" y las metodologías para mitigarlo siguen siendo un área activa de investigación. En este proyecto, se propone desarrollar enfoques novedosos para aprovechar las capacidades predictivas de las técnicas más avanzadas de IA y PLN --en particular los LLM de representación y los LLM generativos mejorados con estrategias de generación aumentada por recuperación (RAG) para abordar las limitaciones mencionadas-- para el avance del análisis textual oncológico en español. Los LLMs más avanzados se adaptarán a las particularidades del ámbito de la oncología, con el objetivo de abordar eficazmente problemas predictivos críticos y de impacto en textos médicos en español. Los modelos resultantes se validarán aplicándolos a la resolución de diferentes tareas de extracción de información sobre casos clínicos de oncología. Finalmente, también se trabajará en el desarrollo de herramientas software que implementen los modelos de PLN propuestos, con el objetivo de poner a disposición de la comunidad clínica la tecnología más avanzada que contribuya a una mejora real de la atención sanitaria.