Shubo Tian, qiao jin, Lana Yeganova, Po Ting Lai, Qingqing Zhu, xiuying chen, Yifan Yang, Qingyu Chen, Won kim, Donald Comeau
Nota del blog: debido a que junto con otros participantes de este blog estamos proyectando incorporar GPT para emitir resúmenes y búsquedas rápidas a preguntas realizadas, sumar inteligencia joven y dinámica a estas propuestas, para darle más valor y contenido. Todas estas incorporaciones se enfrentan al dilema de la sustentabilidad del blog, por dos motivos, sus principios (de no tener sponsorización que pueda afectar la independencia, ni ser rentístico), su costo que se incrementa, y por el tiempo que me insume que es lo más condicionante, pero que debido a que lo hago por place y es mi vocación docente expresada entre grandes colegas para compartir, estoy abocado a buscar el financiamiento adecuado en los próximos meses si salen algunos programas que estoy elaborando, parte de ese rédito se utilizará para potenciar, renovar el blog.
El reciente lanzamiento de ChatGPT [ 1 ] y el posterior lanzamiento de GPT-4 [ 2 ] han captado una atención masiva tanto entre el público en general como entre los profesionales del dominio y ha desencadenado una nueva ola de desarrollo de grandes modelos de lenguaje (LLM). Los LLM como ChatGPT y GPT-4 son modelos de lenguaje (LM) que tienen miles de millones de parámetros en tamaño de modelo y están entrenados con conjuntos de datos que contienen decenas o cientos de miles de millones de tokens. Se consideran modelos básicos [ 3 ] que están previamente entrenados con datos a gran escala y pueden adaptarse a diferentes tareas posteriores. Los LLM han logrado un rendimiento impresionante en una amplia gama de aplicaciones en diversos campos, incluidos los dominios biomédico y de salud. Una búsqueda de palabras clave como ‘grandes modelos de lenguaje’ O ‘ChatGPT’ en PubMed arrojó 582 artículos a finales de mayo de 2023. Además, el número de publicaciones sobre el tema ha crecido exponencialmente desde finales de 2022 y se ha duplicado cada mes en los últimos 6 meses. cubriendo la tecnología y sus implicaciones para diversas aplicaciones biomédicas y de salud.
Además, se han desarrollado varios LLM biomédicos específicos mediante capacitación desde cero o ajustando LLM existentes previamente capacitados con datos biomédicos [ 4-9 ]. Para proporcionar una descripción general completa a los investigadores biomédicos y profesionales de la salud sobre la utilización posible y efectiva de ChatGPT y otros LLM en nuestro dominio, realizamos una encuesta bibliográfica, explorando sus potenciales en una amplia variedad de aplicaciones diferentes, como la recuperación de información biomédica y la respuesta a preguntas. , resumen de textos médicos, extracción de información y educación médica. Además, profundizamos en las limitaciones y riesgos asociados a estos LM.
Específicamente, debido a las notables capacidades de generación de lenguaje, nuestro enfoque se centra en ChatGPT y otros LLM dentro del dominio de la inteligencia artificial generativa (IA). Buscamos artículos que contengan palabras clave relacionadas con LLM, como ‘GPT’, ‘ChatGPT’ o ‘modelo de lenguaje grande’, junto con palabras clave de aplicaciones biomédicas en PubMed ( https://pubmed.ncbi.nlm.nih.gov/ ). medRxiv ( https://www.medrxiv.org/ ), arXiv ( https://arxiv.org/ ) y Google Scholar ( https://scholar.google.com/ ), e incluyó los artículos identificados como relevantes para nuestra revisar. Hasta donde sabemos, esta es la primera encuesta integral de oportunidades y desafíos en ChatGPT y otros LLM para aplicaciones fundamentales en la búsqueda de información y descubrimiento de conocimientos en biomedicina y salud, aunque existen varios artículos de encuestas anteriores sobre LLM generales [ 10 , 11] . ] y uso de ChatGPT para diferentes aplicaciones de salud específicas [ 12-14 ]. Al analizar las capacidades y limitaciones de ChatGPT y LLM, nos esforzamos por desbloquear su inmenso potencial para abordar los desafíos actuales dentro de los campos de la biomedicina y la salud. Además, nuestro objetivo es resaltar el papel de estos modelos a la hora de impulsar la innovación y, en última instancia, mejorar los resultados de la atención sanitaria.
DESCRIPCIÓN GENERAL DE CHATGPT Y LLMS ESPECÍFICOS DE DOMINIO
Descripción general de los LLM generales
Un LM es un modelo estadístico que calcula la probabilidad (conjunta) de una secuencia de palabras (o tokens). La investigación sobre LM se ha realizado durante un largo período de tiempo [ 15 ]. En 2017, el modelo de transformador introducido por Vaswani et al. [ 16 ] se convirtió en la arquitectura fundamental para la mayoría de los LM modernos, incluido ChatGPT. La arquitectura transformadora incluye un codificador de bloques de atención bidireccionales y un decodificador de bloques de atención unidireccionales. Según los módulos utilizados para el desarrollo del modelo, los LM más recientes se pueden agrupar en tres categorías: LM de solo codificador como BERT (Representaciones de codificador bidireccional de Transformers) [ 17 ] y sus variantes, LM de solo decodificador como GPT (Generative Familia de transformadores preentrenados [ 18-20 ] y LM codificadores-decodificadores como T5 (transformador de transferencia de texto a texto) [ 21 ] y BART (transformadores bidireccionales y autorregresivos) [ 22 ]. Los LM de solo codificador y de codificador-decodificador generalmente se entrenan con un objetivo de relleno («LM enmascarado» o «corrupción de intervalo») junto con una tarea descendente opcional, mientras que los LM de solo decodificador se entrenan con LM autorregresivos que predicen el siguiente token dado el fichas anteriores.
Aunque los modelos de solo codificador y codificador-decodificador han logrado un rendimiento de última generación en una variedad de tareas de procesamiento del lenguaje natural (NLP), tienen la desventaja de que requieren una cantidad significativa de datos específicos de la tarea para ajustar el proceso. modelo para adaptarse a las tareas específicas. Este proceso necesita actualizar los parámetros del modelo y agrega complejidad al desarrollo y la implementación del modelo.
A diferencia de esos modelos, cuando se lanzó GPT-3 [ 19 ], demostró que los LM grandes solo decodificadores entrenados en grandes corpus de texto obtuvieron una capacidad significativamente mayor [ 23 ] para la generación de lenguaje natural. Después del entrenamiento, los modelos se pueden aplicar directamente a diversas tareas posteriores invisibles a través del aprendizaje en contexto, como indicaciones de disparo cero, de un disparo o de pocos disparos [ 19 ]. Esto llevó a una tendencia reciente hacia el desarrollo de LLM solo con decodificadores en los años siguientes. Después de GPT-3, se han desarrollado varios LLM potentes como PaLM [ 24 ], Galactica [ 25 ] y el más reciente GPT-4 [ 2 ]. Para obtener más información sobre estos modelos de dominio general, se invita a los lectores a consultar [ 10 , 11 ].
Si bien los LLM son poderosos, es probable que produzcan contenido tóxico, sesgado o dañino para los humanos, ya que el gran corpus utilizado para el entrenamiento de modelos podría contener datos tanto de alta como de baja calidad. Por lo tanto, es extremadamente importante alinear los LLM para generar resultados que sean útiles, honestos e inofensivos para sus usuarios humanos. Para lograrlo, Ouyang et al. [ 26 ] diseñó un enfoque eficaz de ajuste con retroalimentación humana para ajustar GPT-3 en el modelo InstructGPT. Primero ajustaron GPT-3 en un conjunto de datos de demostraciones escritas por humanos del resultado deseado a indicaciones utilizando aprendizaje supervisado y luego ajustaron aún más el modelo supervisado mediante aprendizaje reforzado a partir de retroalimentación humana (RLHF). Este proceso se denominó ajuste de alineación. También se aplicó en el proceso de desarrollo de ChatGPT y se convirtió en una práctica eficaz para el desarrollo de LLM fieles.
A medida que el tamaño del modelo crece, ajustar los LLM para tareas posteriores se vuelve ineficiente y costoso. Alternativamente, la ingeniería rápida sirve como clave para desbloquear el poder de los LLM dada su sólida capacidad de aprendizaje en contexto. Como lo demostró GPT-3, los LLM pudieron lograr un rendimiento prometedor en una amplia gama de tareas de lenguaje natural a través del aprendizaje en contexto mediante indicaciones que utilizaban una instrucción en lenguaje natural con o sin ejemplos de demostración como indicación para que el modelo generara los resultados esperados. Wei y col. [ 27 ] demostró que la cadena de pensamiento impulsada a través de una serie de pasos de razonamiento intermedios fue capaz de mejorar significativamente el desempeño de los LLM en tareas complejas de aritmética, sentido común y razonamiento simbólico. Como enfoque útil, diseñar indicaciones adecuadas para tareas específicas a través de la ingeniería de indicaciones se convirtió en una estrategia eficaz para generar la capacidad de aprendizaje en contexto de los LLM. El proceso de capacitación, ajuste con retroalimentación humana y liberación del poder de los LLM a través de ingeniería rápida se convierte en el paradigma de los LLM, como se muestra en la Figura 1 .Figura 1

El paradigma de los LLM.
Capacitación previa: los LLM se capacitan en corpus a gran escala utilizando un LM autorregresivo;
Ajuste de instrucción: los LLM previamente capacitados se ajustan en un conjunto de datos de demostraciones escritas por humanos del comportamiento de salida deseado en indicaciones mediante aprendizaje supervisado;
Ajuste fino de RLHF: se entrena un modelo de recompensa utilizando datos de comparación recopilados, luego el modelo supervisado se ajusta aún más con respecto al modelo de recompensa utilizando un algoritmo de aprendizaje por refuerzo.
Indicaciones: la instrucción y/o el texto de ejemplo agregado para guiar a los LLM a generar los resultados esperados. Productos generativos: los resultados producidos por los LLM en respuesta a las indicaciones y aportaciones de los usuarios.
LLM para aplicaciones biomédicas y de salud
El desarrollo de LLM ha estado estableciendo constantemente nuevos resultados de vanguardia en una variedad de tareas en PNL general, así como en PNL biomédica específicamente [ 8 , 26 , 28-30 ]. Un ejemplo es el desempeño de los LLM en el conjunto de datos MedQA, un conjunto de datos de respuesta a preguntas biomédicas ampliamente utilizado que comprende preguntas al estilo del examen de licencia médica de EE. UU. (USMLE) y se utiliza para evaluar las capacidades de razonamiento de los LLM. En menos de medio año, el desempeño de LLM se ha acercado a un nivel cercano al de experto humano según Med-PaLM 2 [ 30 ] desde el nivel de aprobación humana de GPT-3.5 [ 31 ], como se muestra en la Figura 2 . Estos logros se han logrado adaptando los LLM para el control de calidad biomédico a través de diferentes estrategias.

Rendimiento de los LLM versus humanos en el conjunto de datos MedQA (USMLE) en términos de precisión. La precisión del desempeño de LLM en el conjunto de datos MedQA (USMLE) ha aumentado desde el nivel de paso humano por GPT-3.5 al nivel cercano al experto humano por Med-PaLM 2 en menos de medio año.
Existen varias estrategias que se pueden aplicar para adaptar ChatGPT y otros LLM para aplicaciones específicas en biomedicina y salud. Cuando se dispone de una gran cantidad de datos, así como de más recursos informáticos y experiencia, se pueden desarrollar LM de dominio específico mediante capacitación previa desde cero o desde puntos de control de LM generales existentes. Alternativamente, se pueden emplear estrategias como el ajuste con datos específicos de la tarea, el ajuste de instrucciones y/o el ajuste de RLHF, el ajuste de avisos suaves y la ingeniería de avisos para adaptar los LM previamente entrenados existentes a aplicaciones de dominio específicas. La explicación de estas estrategias y los ejemplos correspondientes se enumeran a continuación:
- El entrenamiento previo desde cero consiste en crear un LM especializado entrenando previamente el LM con parámetros inicializados aleatoriamente en un gran corpus biomédico utilizando el objetivo de entrenamiento de relleno («LM enmascarado» o «corrupción de intervalo») o un LM autorregresivo. Tanto BioMedLM [ 6 ] como BioGPT [ 7 ] son LM biomédicos especializados desarrollados mediante capacitación previa en un corpus de artículos de PubMed desde cero.
- El entrenamiento previo desde puntos de control de LM generales existentes consiste en desarrollar un LM especializado inicializando sus parámetros desde el punto de control de un LM general existente y entrenando aún más el modelo en un corpus biomédico con los objetivos de entrenamiento de LM de relleno o autorregresivos. El PMC-LLaMA [ 9 ] es un modelo desarrollado mediante un entrenamiento previo adicional del modelo LLaMA-7B [ 32 ] en artículos de PubMed Central.
- El ajuste fino con datos específicos de tareas se ha utilizado con frecuencia para adaptar LM relativamente más pequeños para tareas posteriores específicas. Esta estrategia consiste en ajustar los LM existentes en los datos de entrenamiento de una tarea posterior con el mismo objetivo de entrenamiento de la tarea. Los desarrolladores de BioGPT [ 7 ] también ajustaron BioGPT en datos específicos de tareas después de haberlo entrenado previamente desde cero.
- El ajuste fino de la instrucción y/o el ajuste RLHF es la estrategia para alinear los LLM con mejores respuestas de instrucción ajustando el modelo en datos de pares instrucción-respuesta a través del aprendizaje supervisado y/o aprendizaje reforzado. Varios LLM, incluidos Med-PaLM 2 [ 30 ], Clinical Camel [ 33 ], ChatDoctor [ 34 ] y MedAlpaca [ 35 ], se han desarrollado mediante el ajuste de la instrucción.
- El ajuste de indicaciones suaves es el aprendizaje de vectores de indicaciones suaves que se pueden utilizar como indicaciones para los LLM para tareas posteriores específicas. Es una estrategia para aprovechar los beneficios del aprendizaje basado en gradientes a través de un puñado de ejemplos de capacitación mientras se mantienen congelados los parámetros de los LLM. El modelo de Med-PaLM [ 8 ] es el resultado de la adaptación de Flan-PaLM [ 36 ] al dominio biomédico mediante un ajuste suave y rápido.
- La ingeniería rápida es el proceso de diseñar indicaciones apropiadas para adaptar los LLM a tareas posteriores específicas aprovechando las poderosas capacidades de aprendizaje en contexto de los LLM sin la necesidad de un aprendizaje basado en gradientes. Se han desarrollado y aplicado varias técnicas de ingeniería rápida para adaptar los LLM a tareas biomédicas y relacionadas con la salud.
Aunque investigaciones anteriores han demostrado que los LM previamente entrenados con datos biomédicos específicos del dominio pueden beneficiar varias tareas posteriores en el dominio [ 37-39 ], el entrenamiento previo de un LM desde cero o desde un punto de control existente puede ser muy costoso, especialmente cuando los tamaños de Los LM son cada vez más grandes. Adaptar los LLM mediante el ajuste de la instrucción, el ajuste suave de las indicaciones y la ingeniería rápida puede ser más rentable y accesible. Además, si bien las estrategias enumeradas anteriormente se pueden emplear de forma independiente, también se pueden aplicar en combinación cuando corresponda.
Los avances de los LLM en los últimos años han llevado al desarrollo de una serie de LLM biomédicos especializados como BioMedLM [ 6 ], BioGPT [ 7 ], PMC-LLaMA [ 9 ], Med-PaLM [ 8 ], Med-PaLM 2 [ 30] . ], Clinical Camel [ 33 ], ChatDoctor [ 34 ] y MedAlpaca [ 35 ]. Los usos de LLM generales, incluidos GPT-3 [ 19 ], GPT-3.5 [ 31 ], ChatGPT [ 1 ], GPT-4 [ 29 ], Flan-PaLM [ 8 ] y Galactica [ 25 ] para aplicaciones biomédicas, se están evaluando exhaustivamente. La Tabla 1 proporciona una lista de LLM de dominios específicos [ 6–9 , 30 , 33–35 , 40–46 ]. El desempeño de varios LLM en diferentes tareas de aplicaciones biomédicas se describe en la sección Aplicaciones de ChatGPT y LLM en Biomedicina y Salud .
tabla 1
LLM especializados en campos biomédicos y de salud.
| LLM | Tamaño | Descripción |
|---|---|---|
| BioMedLM | 2,7 mil millones | Desarrollado en base a la implementación de HuggingFace del modelo GPT-2 con pequeños cambios mediante entrenamiento previo desde cero en datos de 16 millones de resúmenes de PubMed y 5 millones de artículos de texto completo de PubMed Central contenidos en el conjunto de datos Pile [ 40 ] |
| BioGPT | 347 millones y 1,5 mil millones | Desarrollado en base a la arquitectura GPT-2 mediante pre-entrenamiento desde cero sobre un corpus de 15 millones de artículos de PubMed que cuentan tanto con título como con resumen. |
| PMC-LLaMA | 7B | Desarrollado mediante capacitación previa adicional del modelo LLaMA 7B en 4,9 millones de artículos de PubMed Central filtrados de los conjuntos de datos S2ORC [ 41 ] durante solo cinco épocas. |
| Med-PaLM 2 | N / A | Desarrollado mediante el ajuste de instrucciones de PaLM 2 [ 42 ] basado en una combinación de datos de conjuntos de datos de respuesta a preguntas médicas que incluyen MedQA [ 43 ], MedMCQA [ 44 ], HealthSearchQA [ 8 ], LiveQA [ 45 ] y MedicationQA [ 46 ] |
| Camello clínico | 13B | Desarrollado mediante el ajuste de instrucciones del modelo LLaMA 13B sobre conversaciones generales de varios pasos en ShareGPT, datos y diálogos sintéticos transformados a partir de datos de MedQA y artículos de revisión clínica. |
| ChatDoctor | 7B | Desarrollado mediante el ajuste de instrucciones del modelo LLaMA 7B en más de 100 000 conversaciones entre pacientes y médicos del mundo real recopiladas de dos sitios de consultas médicas en línea. |
| MedAlpaca | 7B y 13B | Desarrollado mediante el ajuste de instrucciones de los modelos LLaMA 7B y 13B en los datos de Medical Meadow, una colección de pares de instrucción-respuesta reformateados que incluyen conjuntos de datos para tareas médicas de PNL y datos rastreados desde varios recursos de Internet. |
| Med-PaLM | 540B | Desarrollado adaptando Flan-PaLM al ámbito médico mediante el ajuste de instrucciones en 40 ejemplos. |
APLICACIONES DE CHATGPT Y LLMS EN BIOMEDICINA Y SALUD
ChatGPT y otros LLM se pueden utilizar en una amplia gama de aplicaciones biomédicas y de salud. En esta encuesta, cubrimos aplicaciones que son fundamentales para satisfacer las necesidades de información de la toma de decisiones clínicas y la adquisición de conocimientos, incluida la recuperación de información biomédica, la respuesta a preguntas, el resumen de textos médicos, la extracción de información y la educación médica.
Recuperación de información
La recuperación de información (RI) es una parte integral en la toma de decisiones clínicas [ 47 ] y la adquisición de conocimientos biomédicos [ 48 ], ya que cubre diversos comportamientos de búsqueda de información, como la búsqueda de literatura [ 49 ], la respuesta a preguntas [ 50 ] y la recomendación de artículos [ 51 ]. Los LLM como ChatGPT tienen un potencial significativo para cambiar la forma en que las personas interactúan con la información médica en línea [ 52 ].
En primer lugar, los LLM actuales no pueden usarse directamente como motor de búsqueda porque su resultado puede contener información inventada, comúnmente conocida como el problema de las alucinaciones. Por ejemplo, cuando se le pregunta: «¿Podría decirme cuál es la relación entre p53 y la depresión?» Proporcione también las referencias de los PMID; ChatGPT constituye el contenido de PMID 25772646 (perspectivas sobre la acción de la hormona tiroidea en la neurogénesis de adultos) para respaldar sus respuestas incorrectas. Este comportamiento hace que recuperar conocimiento fuera de contexto de ChatGPT sea potencialmente peligroso al llevar a los usuarios a sacar conclusiones incorrectas.
Sin embargo, los LLM podrían facilitar la interpretación de los sistemas tradicionales de IR mediante el resumen de texto. Varios estudios piloto en biomedicina también han demostrado que cuando los LLM reciben suficientes contextos e información general, pueden ser muy efectivos en la comprensión de lectura [ 8 , 31 ] y podrían generar resúmenes fluidos con alta fidelidad [ 53 ]. Estos resultados sugieren que ChatGPT podría resumir la información devuelta por un sistema de IR tradicional y proporcionar una descripción general de alto nivel o una respuesta directa a las consultas de los usuarios. Muchos motores de búsqueda han integrado LLM en su página de resultados. Por ejemplo, ‘ You.com ‘ y ‘New Bing’ proporcionan agentes interactivos similares a ChatGPT que están contextualizados en los resultados de búsqueda web para ayudar a los usuarios a navegar por ellos; ‘scite.ai’ presenta resúmenes generados por LLM con referencias vinculadas a los artículos recuperados para los resultados de búsqueda de literatura. Si bien las características antes mencionadas son potencialmente beneficiosas para todos los sistemas de infrarrojos, los investigadores han advertido que los resultados generados deben verificarse cuidadosamente. Aunque los LLM pueden resumir información en contexto con alta fidelidad, no hay garantía de que dichos resúmenes estén libres de errores [ 54 ].
Los LLM como ChatGPT también se pueden utilizar para enriquecer consultas y mejorar los resultados de búsqueda generando consultas más específicas, ampliando la consulta de búsqueda de un usuario para incluir términos, conceptos o sinónimos relevantes adicionales que pueden mejorar la precisión y relevancia de los resultados de búsqueda. Por ejemplo, Wang et al. [ 55 ] utilizó ChatGPT para formular y refinar consultas booleanas para revisiones sistemáticas. Crearon un amplio conjunto de indicaciones para investigar tareas en más de 100 temas de revisión sistemática. Sus experimentos se llevaron a cabo en dos colecciones de evaluación comparativa: los conjuntos de datos de revisión asistida tecnológica (TAR) CLEF [ 56–58 ] y la colección de revisión sistemática con estudios de semillas [ 59 ]. Las consultas generadas por ChatGPT se compararon con las consultas originales, Baseline Conceptual y Objective. La evaluación se realizó utilizando métricas de precisión, recuperación y puntuación F1 y F3. Sus resultados muestran que las consultas generadas por ChatGPT tienen mayor precisión pero menor recuperación en comparación con las consultas generadas por el método de última generación actual [ 55 ].
Respuesta a preguntas
La respuesta a preguntas (QA) denota la tarea de responder automáticamente una pregunta determinada. En biomedicina, los sistemas de control de calidad se pueden utilizar para ayudar a respaldar las decisiones clínicas, crear chatbots médicos y facilitar la educación sanitaria del consumidor [ 50 ]. Según la disponibilidad de materiales de apoyo, las tareas de control de calidad se pueden clasificar en términos generales en control de calidad abierto (de dominio) y comprensión de lectura automática. En el control de calidad abierto, solo se proporciona la pregunta (por ejemplo, una consulta de búsqueda de salud del consumidor) y un modelo necesita utilizar conocimiento externo o interno para responder la pregunta. En la comprensión de lectura automática, tanto la pregunta como el material para responderla están disponibles, por ejemplo, en el caso de que los médicos hagan preguntas sobre notas clínicas específicas.
Durante la última década se ha introducido una amplia variedad de conjuntos de datos de control de calidad biomédico, incluidos BioASQ [ 60 , 61 ], MedMCQA [ 44 ], MedQA (USMLE) [ 43 ], PubMedQA [ 62 ], GeneTuring [ 63 ]. MedMCQA y MedQA son pruebas de conocimientos médicos generales en el examen de licencia médica de EE. UU. (USMLE) y en los exámenes de ingreso médico de la India, respectivamente. Ambos conjuntos de datos son tareas de dominio abierto donde solo están disponibles la pregunta y entre cuatro y cinco opciones de respuesta. Por el contrario, las preguntas y respuestas de GeneTuring pertenecen al dominio de la genómica, como la conversión de nombres de genes y la alineación de secuencias de nucleótidos. Por otro lado, BioASQ y PubMedQA proporcionan artículos relevantes de PubMed como materiales de apoyo para responder la pregunta planteada. Las tareas de control de calidad biomédico se evalúan utilizando la precisión de la clasificación de las posibles respuestas [de cuatro a cinco opciones proporcionadas para MedMCQA y MedQA (USMLE), entidades para GeneTuring, sí/no para BioASQ y sí/no/tal vez para PubMedQA].
La Tabla 2 muestra el desempeño de los LLM en tres tareas de control de calidad biomédicas de uso común. En general, los mejores resultados se logran con Med-PaLM 2 (en MedQA y PubMedQA) o GPT-4 (en MedMCQA), que actualmente son los LLM más grandes que contienen cientos de miles de millones de parámetros. En particular, logran un rendimiento comparable en el conjunto de datos MedQA y un mayor rendimiento en el conjunto de datos PubMedQA en comparación con el experto humano. FLAN-PaLM y GPT-3.5 también logran puntuaciones altas en PubMedQA, pero son mucho peores que Med-PaLM 2 y GPT-4 en los conjuntos de datos MedQA y MedMCQA. Probablemente esto se deba a que PubMedQA requiere principalmente la capacidad de comprensión lectora (razonamiento), mientras que los otros conjuntos de datos abiertos de control de calidad requieren tanto razonamiento como conocimiento. Sin embargo, los LLM más pequeños (<10B), como BioMedLM y PMC-LLaMA, funcionan de manera similar a DRAGON [ 64 ], un modelo SOTA de tamaño BERT mejorado por el conocimiento del dominio. Esto sugiere que los LLM autorregresivos podrían escalar a tamaños de modelos lo suficientemente grandes como para superar a los modelos más pequeños aumentados con conocimiento de dominio estructurado.
Tabla 2
Desempeño de LLM en tareas de control de calidad biomédica
| Modelo | Aprendiendo | MedQA (USMLE) | PubMedQA (rr/rf) | MedMCQA (desarrollo/prueba) |
|---|---|---|---|---|
| Experto humano [ 31 ] | – | 87.0 | 78,0/90,4 | 90.0 |
| Paso humano [ 31 ] | – | 60.0 | – | 50.0 |
| Med-PaLM 2 [ 30 ] | Mezclado | 86,5 un | 81,8 /- | 72,3 a /- |
| GPT-4 [ 29 ] | pocos tiros | 86.1 | 80,4/- | 73,7 /- |
| FLAN-PaLM [ 8 ] | pocos tiros | 67,6 | 79,0/- | 57,6/- |
| GPT-3.5 [ 31 ] | pocos tiros | 60.2 | 78,2/- | 59,7/62,7 |
| Galáctica [ 25 ] | Mezclado | 44.4 | 77,6 a /- | 52,9 a /- |
| BioMedLM [ 6 ] | Afinar | 50.3 | 74,4/- | – |
| BioGPT [ 7 ] | Afinar | – | −/81,0 | – |
| PMC-LLaMA [ 9 ] | Afinar | 44,7 | 69,5/- | −/50,5 |
| SOTA sin LLM [ 64 ] | Afinar | 47,5 | 73,4/- | – |
Nota : Todos los números son precisión en porcentajes. Los valores subrayados indican el mejor rendimiento de los modelos de lenguaje. rr: razonamiento requerido; rf: libre de razonamiento.
Responder a preguntas biomédicas requiere conocimientos actualizados y precisos. Para abordar el problema de las alucinaciones [ 65 ] en los sistemas de control de calidad médicos, una de las soluciones actuales es el aumento de la recuperación, que se refiere al enfoque de combinar LLM con un sistema de búsqueda, como New Bing para el dominio general y Almanac [ 66 ] en el dominio clínico. Para una pregunta determinada, el sistema primero recuperará los documentos relevantes como materiales de respaldo y luego solicitará a los LLM que respondan la pregunta basándose en los documentos recuperados. En este caso, los LLM podrían generar menos alucinaciones ya que son buenos para resumir contenidos. Sin embargo, estos sistemas todavía no están libres de errores [ 54 ] y es necesario realizar evaluaciones más sistemáticas [ 52 ]. Otra dirección prometedora para abordar el problema de las alucinaciones es aumentar los LLM con herramientas adicionales [ 67-70 ]. Por ejemplo, el conjunto de datos de GeneTuring contiene preguntas de búsqueda de información para SNP específicos como rs745940901. Sin embargo, los LLM autorregresivos no tienen conocimiento sobre ese SNP y la mayoría de los motores de búsqueda comerciales no devuelven resultados a esta consulta, por lo que es posible que el aumento de recuperación tampoco funcione. En este caso, solo se puede acceder a la fuente de información a través de la base de datos dbSNP del NCBI, y aumentar los LLM con las API de la utilidad de la base de datos web del NCBI puede potencialmente resolver el problema de las alucinaciones con respecto a entidades específicas en las bases de datos biomédicas [ 67 ].
Los consumidores han confiado en motores de búsqueda web como Google para sus necesidades de información médica [ 71 ]. Es posible que recurran a los chatbots de LLM porque la interfaz de diálogo puede responder directamente a sus preguntas y seguimientos. De hecho, ya se han realizado varios estudios, como Clinical Camel [ 33 ], DoctorGLM [ 72 ], ChatDoctor [ 34 ], HuaTuo [ 73 ] y MedAlpaca [ 35 ], que intentan crear chatbots clínicos ajustando instrucciones abiertas. LLM de origen (por ejemplo, LLaMA) sobre corpus biomédicos. Sin embargo, la mayoría de estos estudios sólo utilizan pequeños conjuntos de datos privados para la evaluación, y la precisión, la generalización y la utilidad real de dichos sistemas de diálogo siguen sin estar claras.
Resumen de textos biomédicos.
El resumen de textos en los campos biomédico y de la salud es una aplicación importante del procesamiento del lenguaje natural y el aprendizaje automático. Este proceso implica condensar textos médicos extensos en resúmenes más cortos y fáciles de entender sin perder información crítica. Resumir en el campo médico puede resultar particularmente desafiante debido a la complejidad del lenguaje, la terminología y los conceptos. En esta sección, presentaremos tres escenarios de aplicación para el resumen de textos en biomedicina: resumen de la literatura, resumen de informes de radiología y resumen de notas clínicas.
La primera aplicación importante es el resumen de la literatura médica [ 74 ]. Una revisión de la literatura bien resumida puede ayudar a condensar un gran volumen de información en un formato conciso y legible, lo que facilita a los lectores la comprensión de los hallazgos y conclusiones clave. Con este objetivo, Cohan et al. [ 75 ] introdujeron una tarea de resumen de artículos académicos, donde propusieron un conjunto de datos a gran escala de artículos científicos extensos y estructurados obtenidos de PubMed, donde los resúmenes se consideran el resumen del artículo. Pang et al. [ 76 ] logró un rendimiento de vanguardia en este conjunto de datos con técnicas de inferencia de arriba hacia abajo y de abajo hacia arriba. Dando un paso del resumen de artículos al resumen de la literatura, Chen et al. [ 77 ] propuso una tarea de generación de trabajo relacionado, donde la sección de trabajo relacionado se considera como la revisión de la literatura para el campo específico. Con el desarrollo de los LLM, se espera que se puedan considerar más documentos relacionados [ 78 ] y se puedan proponer mejores métricas de evaluación para evaluar la calidad de los resúmenes [ 79 ].
A continuación examinamos cómo las técnicas de resumen pueden ayudar a aplicaciones médicas como el resumen de informes de radiología [ 80 ]. Este es el proceso de condensar informes radiológicos extensos y detallados en resúmenes concisos, informativos y fácilmente comprensibles. Los informes de radiología contienen información crítica sobre los resultados de imágenes médicas de un paciente, como radiografías, tomografías computarizadas, resonancias magnéticas y exámenes de ultrasonido. Los conjuntos de datos representativos incluyen MIMIC-CXR [ 81 ], que es un conjunto de datos de radiografía a gran escala que comprende 473 057 imágenes de rayos X de tórax y 206 563 informes. Hu et al. [ 80 ] utilizó un modelo multimodal mejorado por anatomía para lograr resultados de última generación en términos de las métricas de ROUGE y CheXbert [ 82 ]. En la era de los LLM, Ma et al. [ 83 ] propuso ImpressionGPT, que aprovecha la capacidad de aprendizaje en contexto de los LLM para resumir informes de radiología. Wang y sus colegas propusieron ChatCAD [ 84 ], un marco que resume y reorganiza la información de un informe de radiología para respaldar el resumen basado en consultas.
Finalmente, el resumen de notas clínicas [ 85 ] tiene como objetivo resumir otras notas clínicas no radiológicas, lo que ayuda a los médicos y otros profesionales de la salud a comprender rápidamente la información esencial sobre la condición, los tratamientos y el progreso de un paciente. Mientras que los resúmenes de informes de radiología están más centrados y brindan información basada en estudios de imágenes, el resumen de notas clínicas implica resumir el estado general, el progreso y el plan de un paciente en función de diversas observaciones clínicas, exámenes e interacciones con el paciente [ 86 ]. McInerney et al. [ 87 ] propusieron y evaluaron modelos que extraen fragmentos de texto relevantes de los registros de pacientes para proporcionar un resumen aproximado del caso. Recientemente, Peng et al. [ 88 ] demostró que, si bien ChatGPT puede condensar revisiones sistemáticas preexistentes, con frecuencia pasa por alto elementos cruciales en el resumen, en particular sin mencionar los resultados a corto o largo plazo que a menudo se asocian con diferentes niveles de riesgo. Patel y Lam [ 89 ] discutieron la posibilidad de utilizar un LLM para generar resúmenes de alta, y Tang et al. [ 90 ] probó el rendimiento de ChatGPT en su conjunto de datos de evidencia médica interno. Como trabajo concluyente, Ramprasad et al. [ 91 ] discutió los desafíos actuales al resumir la evidencia de las notas clínicas.
Extracción de información
La extracción de información implica extraer información específica de datos de texto biomédicos no estructurados y organizar la información extraída en un formato estructurado. Las dos tareas de IE más estudiadas son (a) reconocimiento de entidades nombradas (NER): reconocer entidades biológicas y clínicas (por ejemplo, enfermedades) afirmadas en el texto libre y (b) extracción de relaciones (RE): extraer relaciones entre entidades en el texto libre.
Los LM previamente entrenados se han utilizado ampliamente en los métodos NER y RE. Los LM solo codificadores, como BERT, generalmente se ajustan con datos anotados mediante aprendizaje supervisado antes de aplicarse a tareas NER y RE. En cambio, el uso de LM solo decodificadores para NER y RE generalmente los modelará como tareas de generación de texto para generar directamente las entidades y los pares de relaciones. El rendimiento actual de NER y RE de última generación (SOTA) se logró principalmente mediante modelos basados en LM solo codificadores que fueron entrenados previamente en corpus de textos biomédicos y clínicos [ 92 , 93 ] o método de aprendizaje automático [ 94 ].
Recientemente, se han realizado varios estudios para explorar el uso de GPT-3 y ChatGPT para tareas biomédicas de NER y RE. Por ejemplo, Agrawal et al. [ 95 ] utilizó GPT-3 para la tarea NER en el conjunto de datos CASI y demostró que GPT-3 pudo superar el modelo de referencia al observar un único par de entrada-salida. Caufield y cols. [ 96 ] desarrollaron SPIERS consultando recursivamente GPT-3 para obtener respuestas y lograron una puntuación F1 del 40,65% para RE en el conjunto de datos BC5CDR [ 94 ] utilizando el aprendizaje de disparo cero sin ajustar los datos de entrenamiento. Gutiérrez et al. [ 97 ] utilizaron 100 ejemplos de capacitación para explorar el aprendizaje en contexto de GPT-3 para la extracción de información biomédica y descubrieron que GPT-3 superó a PubMedBERT, BioBERT-large y ROBERTa-large en entornos de pocas tomas en varios conjuntos de datos biomédicos NER y RE. Un estudio de referencia realizado por Chen et al. [ 98 ] empleó un método de ingeniería rápida para evaluar el desempeño de ChatGPT en NER y RE biomédicos en los conjuntos de datos de referencia BLURB, incluidos BC5CDR-químico [ 94 ], enfermedad BC5CDR [ 94 ], enfermedad NCBI [ 99 ], BC2GM [ 100 ], JNLPBA [ 101 ], ChemProt [ 102 ], DDI [ 103 ] y GAD [ 104 ] en forma de disparo cero o de pocos disparos. Chen et al. [ 105 ] realizó un estudio piloto para establecer las líneas de base del uso de GPT-3.5 y GPT-4 para NER y RE biomédicos en configuraciones de disparo cero y de un solo disparo. Seleccionaron 180 ejemplos con entidades o relaciones y 20 ejemplos sin entidades o relaciones de cada uno de los conjuntos de datos BC5CDR-chemical, NCBI-diease, ChemProt y DDI y diseñaron indicaciones consistentes para evaluar el rendimiento de GPT-3.5 y GPT-4. Las tablas 3 y 4 resumen el rendimiento de diferentes LM en algunos conjuntos de datos de referencia de NER y RE de uso común.
Tabla 3
Rendimiento de los LLM para NER en comparación con SOTA en conjuntos de datos seleccionados (puntuación F1 en%)
| LM | Método | BC2GM | BC5CDR-químico | enfermedad BC5CDR | JNLPBA | enfermedad NCBI |
|---|---|---|---|---|---|---|
| SOTA | Ajuste de tareas | 84,52 | 93,33 | 85,62 | 79.10 | 87,82 |
| GPT-3 | pocos tiros | 41,40 | 73.00 | 43.60 | 51,40 | |
| GPT-3.5 | Tiro cero | 29.25 | 24.05 | |||
| Un trago | 18.03 | 12.73 | ||||
| ChatGPT | Tiro cero o pocos tiros | 37,54 | 60.30 | 51,77 | 41.25 | 50,49 |
| GPT-4 | Tiro cero | 74,43 | 56,73 | |||
| Un trago | 82.07 | 48.37 |
Tabla 4
Rendimiento de los LLM para ER en comparación con SOTA en conjuntos de datos seleccionados (puntuación F1 en%)
| LM | Método | BC5CDR | QUIMPROT | DDI | GAD |
|---|---|---|---|---|---|
| SOTA | Ajuste de tareas | 57.03 | 77,24 | 82,36 | 83,96 |
| BioGPT | Ajuste de tareas y pocos disparos | 46.17 | 40,76 | ||
| GPT-3 | pocos tiros | 25,90 | 16.10 | 66.00 | |
| Agujas | Tiro cero | 40.65 | |||
| GPT-3.5 | Tiro cero | 57,43 | 33,49 | ||
| Un trago | 61,91 | 34,40 | |||
| ChatGPT | Tiro cero o pocos tiros | 34.16 | 51,62 | 52,43 | |
| GPT-4 | Tiro cero | 66.18 | 63,25 | ||
| Un trago | 65,43 | 65,58 |
El inconveniente de los modelos que logran el rendimiento SOTA NER y RE es la necesidad de datos etiquetados. Las notables capacidades de aprendizaje en contexto de los LLM como ChatGPT mostraron un gran potencial y proporcionaron ventajas significativas para NER y RE biomédicos en circunstancias en las que los datos etiquetados no están disponibles. Sin embargo, todavía no pueden superar el rendimiento de los LM que están ajustados en conjuntos de datos de tareas específicas. Además, todavía existen varios desafíos en el uso de ChatGPT y otros LLM para la extracción de información. Los resultados generativos de ChatGPT y otros LLM a veces reformulan las entidades identificadas o las relaciones previstas que las hacen difíciles de verificar. ChatGPT y otros LLM también pueden producir entidades y relaciones que parecen plausibles pero no verdaderas. Buscar indicaciones que sean apropiadas para NER y RE también puede resultar un desafío. Dados todos estos desafíos, se necesita una investigación exhaustiva para explorar enfoques efectivos para aprovechar ChatGPT y otros LLM para la extracción de información biomédica.
Educación médica
El uso de LLM en educación médica es un área de investigación y desarrollo apasionante y de rápido crecimiento. En particular, los LLM tienen el potencial de convertirse en aplicaciones educativas y proporcionar vías de aprendizaje alternativas para que los estudiantes les ayuden a adquirir y retener conocimientos de manera más eficiente.
Una de las características atractivas de ChatGPT es su capacidad para interactuar de forma conversacional [ 106 ]. El formato de diálogo hace posible que ChatGPT responda preguntas de seguimiento y se comunique en un formato conversacional. Una aplicación temprana de ChatGPT en educación es un estudio piloto realizado por Khan Academy [ 107 ]. Aunque la aplicación no se aplica a la educación sanitaria, sino a la educación general para estudiantes de los grados K-12, es una ilustración de la integración del modelo en un entorno educativo. Khanmigo, un chatbot en tiempo real, analiza las respuestas y guía al estudiante hacia la solución haciéndole preguntas y animándolo.
Además, ChatGPT está equipado con la capacidad de proporcionar conocimientos y explicaciones, lo que sugiere que los LLM pueden tener el potencial de convertirse en herramientas interactivas de educación médica para apoyar el aprendizaje. Una de las características que los hace adecuados para la educación es su capacidad para responder preguntas y brindar experiencias de aprendizaje a estudiantes individuales, ayudándolos a aprender de manera más eficiente y efectiva.
ChatGPT también se puede utilizar para generar escenarios de casos [ 108 , 109 ] o cuestionarios para ayudar a los estudiantes de medicina a practicar y mejorar sus capacidades de planificación de diagnóstico y tratamiento [ 110 ]. Por ejemplo, el autor en [ 109 ] entabla un diálogo con un chatbot y le pide que simule a un paciente con diabetes no diagnosticada y los laboratorios comunes que pueden necesitar realizarse.
Los LLM también se pueden utilizar para ayudar a los estudiantes de medicina a mejorar sus habilidades de comunicación. Al analizar las entradas del lenguaje natural y generar respuestas similares a las humanas, los LLM pueden ayudar a los estudiantes a practicar sus habilidades de comunicación en un entorno seguro y controlado. Por ejemplo, un LLM podría usarse para simular interacciones con pacientes, lo que permitiría a los estudiantes practicar cómo dar noticias difíciles o explicar conceptos médicos complejos de manera clara y concisa.
Otras aplicaciones
Además de las aplicaciones fundamentales previamente elaboradas, ChatGPT y otros LLM se pueden utilizar para otras aplicaciones que también son importantes en biomedicina y salud, como la resolución de correferencias, la clasificación de textos y la síntesis de conocimientos. Comparativamente, el uso de ChatGPT y otros LLM para estas aplicaciones se ha explorado menos. A continuación resumimos brevemente estas aplicaciones.
La resolución de correferencia es el proceso de encontrar todas las menciones que se refieren a las mismas entidades en un texto. Es una tarea esencial identificar enlaces de correferencia para apoyar el descubrimiento de información compleja en textos biomédicos. Algunos conjuntos de datos utilizados para la investigación de la resolución de correferencia incluyen MEDSTRACT [ 111 ], Flyslip [ 112 ], GENIA-MedCo [ 113 ], DrugNerAR [ 114 ], BioNLP-ST’11 COREF [ 115 ], HANAPIN [ 116 ] y CRAFT-CR [ 117 ]. Si bien los LM previamente entrenados, como BioBERT y SpanBERT, se han utilizado en la investigación de referencia de correferencia, los LLM, incluido ChatGPT, no se han explorado [ 118 ].
La clasificación de texto tiene como objetivo asignar una o más etiquetas predefinidas a un texto determinado, como una oración, un párrafo o un documento. Desempeña un papel importante en el análisis de sentimientos biomédicos y la clasificación de documentos. HoC [ 119 ] ha sido el conjunto de datos utilizado ampliamente para la investigación de la clasificación de textos biomédicos. Contiene 1580 resúmenes de PubMed que fueron anotados manualmente para la clasificación de documentos de múltiples etiquetas de las características del cáncer. Se lograron rendimientos de última generación en HoC mediante LM preentrenados y ajustados [ 7 ]. Los experimentos habían demostrado que el rendimiento de los LLM como ChatGPT y GPT-4 eran subóptimos en comparación con los LM preentrenados y ajustados [ 98 , 105 ].
La síntesis de conocimiento intenta extraer y resumir información útil a partir de una gran cantidad de datos para generar conocimientos integrales y nuevos conocimientos. Es un paso fundamental en el descubrimiento y la traducción del conocimiento biomédico. Se cree que los LLM como ChatGPT, previamente capacitados con una gran cantidad de datos diversos, han codificado un rico conocimiento biomédico y clínico [ 8 ]. Se han realizado algunos experimentos para evaluar el uso de LLM para resumir, simplificar y sintetizar evidencia médica [ 88 , 90 , 120 ]. Los LLM permitirán automatizar la síntesis de conocimientos a gran escala para acelerar los descubrimientos biomédicos y mejorar la educación médica y las prácticas de salud.
Dadas las poderosas capacidades de los LLM, podemos esperar que se desarrollen aplicaciones más creativas impulsadas por los LLM en los dominios de la biomedicina y la salud.
LIMITACIONES Y RIESGOS DE LLMS
Si bien los LLM como ChatGPT demuestran capacidades poderosas, estos modelos no están exentos de limitaciones. De hecho, la implementación de LLM en aplicaciones de alto riesgo, particularmente dentro del ámbito biomédico y de salud, presenta desafíos y riesgos potenciales. Las limitaciones, los desafíos y los riesgos asociados con los LLM se han discutido ampliamente en investigaciones anteriores [ 19 , 121 , 122 ], y en esta encuesta, nos centraremos específicamente en aquellos relevantes para el contexto de los dominios biomédicos y de salud.
Alucinación
Todos los LM tienen tendencia a alucinar, produciendo contenidos que pueden parecer plausibles pero no son correctos. Cuando dicho contenido se utiliza para brindar asesoramiento médico o en la toma de decisiones clínicas, las consecuencias pueden ser particularmente dañinas e incluso desastrosas. El peligro potencial asociado con las alucinaciones puede volverse más grave a medida que las capacidades de los LLM continúan avanzando, lo que resulta en alucinaciones más convincentes, persuasivas y creíbles. Se sabe que estos sistemas carecen de transparencia: incapacidad para relacionarse con la fuente, lo que crea una barrera para utilizar la información proporcionada. Para que los profesionales de la salud utilicen LLM como apoyo a su toma de decisiones, se debe tener gran precaución al verificar la información generada.
Otra preocupación es que es posible que los LLM no puedan capturar toda la complejidad del conocimiento médico y la toma de decisiones clínicas o producir resultados erróneos. Si bien los LLM pueden analizar grandes cantidades de datos e identificar patrones, es posible que no puedan replicar el juicio matizado y la experiencia de un médico humano. El uso de terminologías no estándar presenta una complicación adicional.
Equidad y parcialidad
En los últimos años, la equidad ha llamado la atención de las comunidades de investigación de ML como una consideración crucial tanto para el rendimiento estable como para la predicción posterior imparcial. Muchos estudios han demostrado que los LM pueden amplificar y perpetuar los sesgos [ 2 , 123 ] porque aprendieron de datos históricos. Esto puede perpetuar inadvertidamente los sesgos y las desigualdades en la atención sanitaria. En un estudio reciente, los investigadores muestran que el texto generado con GPT-3 puede capturar el sesgo social [ 124 ]. Aunque existe mucha investigación en el ámbito general sobre la equidad en el aprendizaje automático y la PNL, incluidos los prejuicios raciales y de género, se ha realizado poco trabajo en el ámbito biomédico. Muchos conjuntos de datos actuales no contienen información demográfica, ya que esto se relaciona con preocupaciones de privacidad en las prácticas médicas. Un modelo injusto y sesgado en el ámbito biomédico y de la salud puede conducir a resultados perjudiciales y afectar la calidad del tratamiento que recibe un paciente [ 125-127 ].
Privacidad
Los corpus utilizados para la formación de LLM suelen contener una variedad de datos de diversas fuentes, que pueden incluir información personal privada. Huang et al. [ 128 ] descubrió que los LM pueden filtrar información personal. También se informó que GPT-4 tiene el potencial de usarse para intentar identificar individuos privados y asociar información personal como la ubicación geográfica y el número de teléfono [ 122 ]. Los datos de textos biomédicos y clínicos utilizados para la formación de LLM pueden contener información del paciente y plantear graves riesgos para la privacidad del paciente. Los LLM implementados para aplicaciones biomédicas y de salud también pueden presentar riesgos para la privacidad del paciente, ya que pueden tener acceso a las características del paciente, como mediciones clínicas, firmas moleculares y datos de seguimiento sensorial.
Preocupaciones legales y éticas
En los últimos años se han llevado a cabo continuos debates sobre las preocupaciones legales y éticas del uso de la IA para la medicina y la atención sanitaria [ 129 ]. El interés generalizado en ChatGPT también generó recientemente muchas preocupaciones sobre cuestiones legales y éticas relacionadas con el uso de LLM como ChatGPT en investigaciones y prácticas médicas [ 130 , 131 ]. Se abogó por establecer un marco jurídico sólido que abarcara la transparencia, la equidad, la privacidad y la rendición de cuentas. Dicho marco puede garantizar el desarrollo, la validación, la implementación y el seguimiento continuo de los LLM de forma segura, teniendo en cuenta las limitaciones y los riesgos [ 132 ].
El reconocimiento de ChatGPT como autor en investigación biomédica se ha identificado particularmente como una preocupación ética. Los investigadores biomédicos pueden tener sus opiniones sobre si ChatGPT u otros LLM deberían ser bienvenidos en sus filas. De hecho, varios artículos ya incluyen a ChatGPT como autor [ 133-136 ]. Sin embargo, después de que surgieron varias preocupaciones éticas [ 137 ], varios de estos artículos terminaron eliminando ChatGPT de la lista de autores [ 133 , 138 ]. Uno de los problemas de permitir artículos escritos por máquinas es si podrían reconocerse de forma fiable. En un informe, los humanos no solo detectaron el 68% de los resúmenes generados, sino que también marcaron el 14% de los resúmenes humanos como generados por máquinas [ 139 ].
La crítica más válida a la generación de artículos científicos asistida por un LLM es la responsabilidad. No hay consecuencias para el LLM si el resultado es incorrecto, engañoso o dañino. Por tanto, no pueden asumir la responsabilidad de redactar el artículo [ 140-144 ]. Otra cuestión son los derechos de autor: en muchas jurisdicciones, el material generado por máquinas puede no recibir derechos de autor [ 130 , 140 ], lo que plantea un problema obvio para las revistas.
También surgen preguntas con respecto a la divulgación del uso de LLM durante un proyecto o en la preparación de un artículo [ 142 , 144 ]. Existe una larga tradición de herramientas de generación de informes que se utilizaron para un proyecto. Por un lado, si el LLM tuvo un impacto material en el estudio, se debe informar. Por otro lado, no reportamos el corrector ortográfico que se utilizó para preparar un trabajo. ¿Deberíamos informar el LLM? Distinguir estos extremos en el contexto de un LLM requerirá tiempo y experiencia.
Falta de evaluaciones integrales
Los LLM deben ser evaluados exhaustivamente con respecto a su desempeño, seguridad y posible sesgo antes de cualquier implementación en biomedicina. Sin embargo, evaluar estos LLM biomédicos no es trivial. Si bien algunas tareas tradicionales de PNL, como NER y RE, tienen métricas de evaluación automática confiables, como puntajes F1, los usuarios usan principalmente LLM para obtener respuestas de texto libre para sus necesidades de información biomédica, como respuestas a preguntas y resúmenes de texto. Generalmente, las evaluaciones de expertos de dichos resultados de LLM de texto libre se consideran el estándar de oro, pero obtener dichas evaluaciones requiere mucha mano de obra y no es escalable. Por ejemplo, se empleó un panel de médicos para evaluar las respuestas de Med-PaLM a preguntas médicas entre varios ejes, como el consenso científico, la idoneidad del contenido y el alcance del posible daño [ 8 ]. Sin embargo, en el estudio sólo se han evaluado 140 preguntas, probablemente debido al alto coste de las anotaciones de expertos. Otro problema de la evaluación manual es que no hay consenso sobre qué ejes deben evaluarse o las pautas de puntuación, por lo que los resultados de la evaluación manual de diferentes estudios no son directamente comparables. Por lo tanto, es imperativo llegar a un consenso de informes, como la declaración PRISMA [ 145 ] para revisiones sistemáticas, para evaluar los LLM biomédicos.
Alternativamente, existen dos enfoques principales para evaluar las respuestas del LLM sin involucrar a evaluadores expertos. La práctica más común es convertir la tarea en preguntas de opción múltiple estilo USMLE (como MedQA, PubMedQA y MedMCQA) y evaluar la precisión de las opciones de respuesta generadas por LLM. Estas tareas sirven como un buen indicador para evaluar las capacidades de razonamiento del conocimiento de los LLM. Sin embargo, no son realistas, ya que las opciones de respuesta no se proporcionarán en las preguntas de los usuarios de la vida real en biomedicina. La otra solución es evaluar la respuesta generada por LLM frente a una respuesta de referencia o un resumen con métricas automáticas. Esta puntuación automática puede basarse en superposición léxica como BLEU [ 146 ], ROUGE [ 147 ] y METEOR [ 148 ], así como en similitud semántica como BERTScore [ 149 ], BARTScore [ 150 ] y GPTScore [ 151 ]. Aunque estas métricas automáticas pueden evaluar los resultados de LLM de texto libre a gran escala, a menudo no se correlacionan fuertemente con los juicios humanos [ 79 , 90 ]. Como tal, también es vital diseñar nuevas métricas de evaluación, potencialmente con LLM, que puedan ser escalables y precisas.
LLM de código abierto versus de código cerrado
Cuando se trata de implementar LLM para aplicaciones, una decisión importante que los usuarios deben tomar es si elegir LLM de código abierto o de código cerrado. Ambas categorías tienen sus pros y sus contras y plantean distintos desafíos y riesgos para los usuarios. Los LLM de código abierto desempeñan un papel importante a la hora de facilitar la innovación y la adaptación de nuevas tecnologías en la comunidad. Ofrecen a los usuarios más transparencia y más control sobre los modelos, pero menos soporte. Al utilizar LLM de código abierto, los usuarios pueden adaptar y personalizar los LLM a sus necesidades específicas con mayor flexibilidad. Sin embargo, los usuarios de LLM de código abierto generalmente dependen del apoyo de la comunidad. Cuando no cuentan con recursos técnicos internos sólidos, pueden enfrentar desafíos en la adaptación, personalización e implementación y correr el riesgo de una implementación fallida de los LLM. Por otro lado, los LLM de código cerrado pueden brindar a los usuarios un soporte más dedicado, pero menos transparencia y menos control sobre los modelos. Los LLM de código cerrado suelen estar respaldados por grandes corporaciones con recursos sustanciales para apoyar el desarrollo, la mejora y la implementación. Sin embargo, los usuarios de LLM de código cerrado podrían experimentar dificultades para personalizar los LLM según sus necesidades debido a la falta de transparencia y control de los LLM y pueden enfrentar riesgos de dependencia del proveedor y filtración de información confidencial cuando se envían a los LLM. Además, los costos de utilizar LLM de código abierto versus de código cerrado también pueden ser muy diferentes. La implementación de LLM de código abierto puede requerir una mayor inversión inicial pero menos costos a largo plazo que sean predecibles, mientras que el uso de LLM de código cerrado puede requerir menos inversión al principio pero mayores costos de suscripción que pueden aumentar debido a los cambios en los precios de los proveedores. La decisión de utilizar LLM de código abierto o de código cerrado depende de las necesidades, prioridades y recursos específicos de los usuarios. Es importante que los usuarios evalúen cuidadosamente los beneficios y riesgos de ambas opciones antes de tomar la decisión.
DISCUSIÓN Y CONCLUSIÓN
En esta encuesta, revisamos el progreso reciente de los LLM con un enfoque en modelos generativos como ChatGPT y sus aplicaciones en los dominios biomédico y de salud. Descubrimos que las aplicaciones biomédicas y de salud de ChatGPT y otros LLM se están explorando ampliamente en la literatura y que se han desarrollado algunos LLM especializados en dominios. Se ha evaluado el desempeño de LLM especializados y no especializados para aplicaciones biomédicas en una variedad de tareas. Nuestros hallazgos también revelaron que el desempeño de los LLM varía en diferentes tareas biomédicas posteriores. Los LLM pudieron lograr un rendimiento de última generación en tareas de generación de texto, como el control de calidad médico. Sin embargo, todavía tuvieron un rendimiento inferior al enfoque de ajuste existente de los LM más pequeños para la extracción de información.
De cara al futuro, las oportunidades para los LLM presentan perspectivas prometedoras para la implementación de sistemas basados en LLM para aplicaciones biomédicas y de salud en escenarios de la vida real. En la era de los LLM, la dirección futura de los resúmenes médicos es muy prometedora. Podemos anticipar que los LLM se utilizarán cada vez más para resumir automáticamente una extensa literatura médica, informes radiológicos y notas clínicas. Esto facilitaría un acceso más rápido a información vital y apoyaría los procesos de toma de decisiones para los profesionales de la salud. Además, se espera que manejen mejor la terminología y el contexto médicos complejos, mejorando así la calidad de los resúmenes. Otra área potencial de crecimiento es la comunicación con el paciente. Los LLM podrían usarse para transformar la jerga médica compleja en términos sencillos, ayudando a los pacientes a comprender sus condiciones de salud y opciones de tratamiento. Además, un aula de medicina equipada con LLM puede brindar a los estudiantes experiencias de aprendizaje más personalizadas y un mayor enfoque en el estudio del pensamiento crítico y las habilidades de resolución de problemas. Un sistema clínico integrado con LLM puede brindar beneficios a pacientes y médicos servicios de atención médica eficientes y de calidad a través de diagnósticos precisos, medicina de precisión, toma de decisiones adecuada y documentación clínica adecuada en la preparación de informes clínicos concisos, notas clínicas concisas y cartas afectuosas a los pacientes.
De hecho, se han publicado varios artículos sobre las perspectivas del uso de ChatGPT para aplicaciones biomédicas y clínicas en la práctica [ 130 , 131 ]. Se han realizado muchos experimentos para evaluar el uso de ChatGPT en diversos escenarios en flujos de trabajo biomédicos y clínicos. Sin embargo, hasta ahora, no se ha informado de ninguna implementación real de ChatGPT ni de ningún otro LLM. Debido a la naturaleza de alto riesgo de los entornos biomédicos y de salud, la implementación de LLM como ChatGPT en la práctica requiere más prudencia dadas sus limitaciones y riesgos. En particular, el desafío de la transparencia de que los datos de capacitación de ChatGPT y otros LLM sigan siendo de código cerrado aumenta las dificultades en la evaluación de los LLM.
Si bien los beneficios potenciales son inmensos, también debemos ser conscientes de los riesgos y desafíos, como se analizó anteriormente. Es necesario desarrollar e implementar estrategias y técnicas para superar las limitaciones de los LLM. Para aliviar la generación de contenido sin sentido o dañino, se pueden utilizar técnicas de aumento de la recuperación, se deben elaborar indicaciones efectivas y se deben aplicar métodos de evaluación rigurosos [ 67 , 152 ]. Para mitigar el sesgo y mejorar la equidad, se deben diversificar los datos de capacitación, se analizarán el sesgo y la equidad de los LLM y se implementará la detección de sesgos. Para proteger la privacidad de las personas, la información personal confidencial se limitará y no se identificará cuando se utilice en LLM. Se crearán y emitirán regulaciones para asegurar el uso legal y adecuado de los LLM. La comunidad investigadora está trabajando arduamente en el desarrollo de tales estrategias y técnicas. Garantizar el uso ético de la IA en la atención sanitaria, mantener la privacidad de los pacientes, mitigar los sesgos en los modelos de IA y aumentar la transparencia de los modelos de IA son algunas de las consideraciones importantes para el desarrollo futuro en esta área. Por lo tanto, un enfoque multidisciplinario, que incluya aportes de profesionales de la salud, científicos de datos, especialistas en ética y formuladores de políticas, será crucial para guiar la dirección futura de la investigación y el desarrollo futuros en la era de los LLM.Puntos clave
- Examinamos diversas aplicaciones de LLM, incluido ChatGPT, en biomedicina y salud.
- Los LLM han logrado avances significativos en el campo de las tareas de generación de texto, pero avances modestos en otras aplicaciones biomédicas y de salud.
- El rápido progreso reciente de los LLM indica su gran potencial para proporcionar medios valiosos para acelerar el descubrimiento y mejorar la salud.
- El uso de LLM como ChatGPT en biomedicina y salud implica diversos riesgos y desafíos, incluida información fabricada, así como preocupaciones legales y de privacidad.
- Un enfoque multidisciplinario es crucial para guiar la dirección futura de la investigación y el desarrollo de LLM para aplicaciones biomédicas y de salud.