Modelos básicos para inteligencia artificial médica

Principal

El desarrollo excepcionalmente rápido de modelos de inteligencia artificial (IA) altamente flexibles y reutilizables probablemente marcará el comienzo de nuevas capacidades en medicina. Proponemos un nuevo paradigma para la IA médica, al que nos referimos como IA médica generalista (GMAI). Los modelos GMAI serán capaces de llevar a cabo un conjunto diverso de tareas utilizando muy pocos o ningún dato etiquetado específico de la tarea. Desarrollada mediante la autosupervisión en conjuntos de datos grandes y diversos, GMAI interpretará de manera flexible diferentes combinaciones de modalidades médicas, incluidos datos de imágenes, registros médicos electrónicos, resultados de laboratorio, genómica, gráficos o texto médico. Los modelos a su vez producirán resultados expresivos como explicaciones de texto libre, recomendaciones habladas o anotaciones de imágenes que demuestran habilidades avanzadas de razonamiento médico. Aquí identificamos un conjunto de aplicaciones potenciales de alto impacto para GMAI y presentamos capacidades técnicas específicas y conjuntos de datos de capacitación necesarios para habilitarlas. Esperamos que las aplicaciones habilitadas para GMAI desafíen las estrategias actuales para regular y validar dispositivos de IA para la medicina y cambien las prácticas asociadas con la recopilación de grandes conjuntos de datos médicos.

Los modelos básicos (la última generación de modelos de IA) se entrenan con conjuntos de datos masivos y diversos y se pueden aplicar a numerosas tareas posteriores 1 . Los modelos individuales ahora pueden lograr un rendimiento de vanguardia en una amplia variedad de problemas, que van desde responder preguntas sobre textos hasta describir imágenes y jugar videojuegos 2 , 3 , 4 . Esta versatilidad representa un cambio radical con respecto a la generación anterior de modelos de IA, que se diseñaron para resolver tareas específicas, una a la vez.

Impulsados ​​por conjuntos de datos en crecimiento, aumentos en el tamaño del modelo y avances en las arquitecturas de modelos, los modelos de base ofrecen capacidades nunca antes vistas. Por ejemplo, en 2020, el modelo de lenguaje GPT-3 desbloqueó una nueva capacidad: el aprendizaje en contexto, a través del cual el modelo llevó a cabo tareas completamente nuevas para las que nunca había sido entrenado explícitamente, simplemente aprendiendo de explicaciones de texto (o ‘indicaciones’) que contenían algunos ejemplos 5 . Además, muchos modelos de base recientes pueden recibir y generar combinaciones de diferentes modalidades de datos 4 , 6 . Por ejemplo, el reciente modelo Gpt puede chatear, subtitular imágenes, jugar videojuegos y controlar un brazo robótico y, por lo tanto, se lo ha descrito como un agente generalista 2 . Como ciertas capacidades surgen solo en los modelos más grandes, sigue siendo un desafío predecir lo que los modelos incluso más grandes podrán lograr 7 .

Aunque ha habido esfuerzos tempranos para desarrollar modelos de base médica 8 , 9 , 10 , 11 , este cambio aún no ha permeado ampliamente la IA médica, debido a la dificultad de acceder a conjuntos de datos médicos grandes y diversos, la complejidad del dominio médico y lo reciente de este desarrollo. En cambio, los modelos de IA médica todavía se desarrollan en gran medida con un enfoque específico de la tarea para el desarrollo del modelo. Por ejemplo, un modelo de interpretación de radiografías de tórax puede entrenarse en un conjunto de datos en el que cada imagen ha sido etiquetada explícitamente como positiva o negativa para neumonía, lo que probablemente requiera un esfuerzo de anotación sustancial. Este modelo solo detectaría neumonía y no podría llevar a cabo el ejercicio de diagnóstico completo de escribir un informe radiológico integral. Este enfoque estrecho y específico de la tarea produce modelos inflexibles, limitados a llevar a cabo tareas predefinidas por el conjunto de datos de entrenamiento y sus etiquetas. En la práctica actual, dichos modelos normalmente no pueden adaptarse a otras tareas (o incluso a diferentes distribuciones de datos para la misma tarea) sin ser reentrenados en otro conjunto de datos. De los más de 500 modelos de IA para medicina clínica que han recibido la aprobación de la Administración de Alimentos y Medicamentos, la mayoría han sido aprobados solo para 1 o 2 tareas específicas 12 .

En este artículo, describimos cómo los recientes avances en la investigación de modelos básicos pueden alterar este paradigma específico de la tarea. Entre ellos se incluyen el auge de las arquitecturas multimodales 13 y las técnicas de aprendizaje autosupervisado 14 que prescinden de las etiquetas explícitas (por ejemplo, el modelado del lenguaje 15 y el aprendizaje contrastivo 16 ), así como la aparición de capacidades de aprendizaje en contexto 5 .

Estos avances permitirán, en cambio, el desarrollo de GMAI, una clase de modelos médicos básicos avanzados. “Generalista” implica que se utilizarán ampliamente en aplicaciones médicas y reemplazarán en gran medida a los modelos específicos de tareas.

Inspirados directamente por modelos de base ajenos a la medicina, identificamos tres capacidades clave que distinguen a los modelos GMAI de los modelos de IA médica convencionales (Fig. 1 ). En primer lugar, adaptar un modelo GMAI a una nueva tarea será tan fácil como describir la tarea en un lenguaje sencillo (u otro idioma). Los modelos podrán resolver problemas nunca vistos anteriormente simplemente con que se les expliquen las nuevas tareas (especificación dinámica de tareas), sin necesidad de volver a entrenarlos 3 , 5 . En segundo lugar, los modelos GMAI pueden aceptar entradas y producir salidas utilizando distintas combinaciones de modalidades de datos (por ejemplo, pueden tomar imágenes, texto, resultados de laboratorio o cualquier combinación de ellos). Esta interactividad flexible contrasta con las limitaciones de los modelos multimodales más rígidos, que siempre utilizan conjuntos predefinidos de modalidades como entrada y salida (por ejemplo, siempre deben tomar imágenes, texto y resultados de laboratorio juntos). En tercer lugar, los modelos GMAI representarán formalmente el conocimiento médico, lo que les permitirá razonar sobre tareas nunca vistas anteriormente y utilizar un lenguaje médicamente preciso para explicar sus resultados.

Enumeramos estrategias concretas para lograr este cambio de paradigma en la IA médica. Además, describimos un conjunto de aplicaciones potencialmente de alto impacto que esta nueva generación de modelos permitirá. Por último, señalamos los principales desafíos que deben superarse para que la IA médica genere el valor clínico que promete.

El potencial de los modelos generalistas en la IA médica

Los modelos GMAI prometen resolver tareas más diversas y desafiantes que los modelos actuales de IA médica, aunque requieren pocas o ninguna etiqueta para tareas específicas. De las tres capacidades definitorias de GMAI, dos permiten interacciones flexibles entre el modelo GMAI y el usuario: primero, la capacidad de llevar a cabo tareas que se especifican dinámicamente; y segundo, la capacidad de admitir combinaciones flexibles de modalidades de datos. La tercera capacidad requiere que los modelos GMAI representen formalmente el conocimiento del dominio médico y lo aprovechen para llevar a cabo un razonamiento médico avanzado. Los modelos básicos recientes ya exhiben aspectos individuales de GMAI, al combinar de manera flexible varias modalidades 2 o hacer posible especificar dinámicamente una nueva tarea en el momento de la prueba 5 , pero aún se requieren avances sustanciales para construir un modelo GMAI con las tres capacidades. Por ejemplo, los modelos existentes que muestran capacidades de razonamiento médico (como GPT-3 o PaLM) no son multimodales y aún no generan declaraciones factuales confiables.

Interacciones flexibles

GMAI ofrece a los usuarios la posibilidad de interactuar con los modelos a través de consultas personalizadas, lo que facilita la comprensión de los conocimientos de IA para diferentes públicos y ofrece una flexibilidad sin precedentes en las tareas y los entornos. En la práctica actual, los modelos de IA suelen gestionar un conjunto reducido de tareas y producir un conjunto de resultados predeterminados y rígidos. Por ejemplo, un modelo actual podría detectar una enfermedad específica, tomando un tipo de imagen y siempre generando la probabilidad de esa enfermedad. Por el contrario, una consulta personalizada permite a los usuarios plantear preguntas sobre la marcha: «Explique la masa que aparece en esta resonancia magnética de la cabeza. ¿Es más probable que se trate de un tumor o de un absceso?». Además, las consultas pueden permitir a los usuarios personalizar el formato de sus resultados: «Esta es una resonancia magnética de seguimiento de un paciente con glioblastoma. Resalte los tumores en rojo».

Las consultas personalizadas habilitarán dos capacidades clave: especificación dinámica de tareas y entradas y salidas multimodales, de la siguiente manera.

Especificación de tareas dinámicas

Las consultas personalizadas pueden enseñar a los modelos de IA a resolver nuevos problemas sobre la marcha, especificando dinámicamente nuevas tareas sin necesidad de volver a entrenar los modelos. Por ejemplo, GMAI puede responder a preguntas muy específicas que no se habían visto antes: “Dada esta ecografía, ¿qué grosor tiene la pared de la vesícula biliar en milímetros?”. Como era de esperar, un modelo GMAI puede tener dificultades para completar nuevas tareas que involucran conceptos o patologías desconocidas. El aprendizaje en contexto permite entonces a los usuarios enseñar al GMAI sobre un nuevo concepto con unos pocos ejemplos: “Aquí están los historiales médicos de diez pacientes anteriores con una enfermedad emergente, una infección por el henipavirus Langya. ¿Qué probabilidad hay de que nuestro paciente actual también esté infectado por el henipavirus Langya?” 17 .

Entradas y salidas multimodales

Las consultas personalizadas pueden permitir a los usuarios incluir información médica compleja en sus preguntas, mezclando libremente las modalidades. Por ejemplo, un médico puede incluir múltiples imágenes y resultados de laboratorio en su consulta cuando pide un diagnóstico. Los modelos GMAI también pueden incorporar de manera flexible diferentes modalidades en las respuestas, como cuando un usuario solicita una respuesta de texto y una visualización que la acompaña. Siguiendo modelos anteriores como Gato, los modelos GMAI pueden combinar modalidades convirtiendo los datos de cada modalidad en «tokens», cada uno representando una unidad pequeña (por ejemplo, una palabra en una oración o un parche en una imagen) que se puede combinar en todas las modalidades. Este flujo combinado de tokens se puede luego alimentar a una arquitectura de transformador 18 , lo que permite a los modelos GMAI integrar el historial completo de un paciente determinado, incluidos informes, señales de forma de onda, resultados de laboratorio, perfiles genómicos y estudios de imágenes.

Conocimiento del dominio médico

En marcado contraste con los médicos, los modelos de IA médica convencionales suelen carecer de conocimientos previos del ámbito médico antes de ser entrenados para sus tareas específicas. En cambio, tienen que depender únicamente de asociaciones estadísticas entre las características de los datos de entrada y el objetivo de predicción, sin tener información contextual (por ejemplo, sobre procesos fisiopatológicos). Esta falta de conocimientos previos dificulta el entrenamiento de modelos para tareas médicas específicas, en particular cuando los datos para las tareas son escasos.

Los modelos GMAI pueden abordar estas deficiencias mediante la representación formal del conocimiento médico. Por ejemplo, estructuras como los gráficos de conocimiento pueden permitir que los modelos razonen sobre conceptos médicos y relaciones entre ellos. Además, basándose en enfoques recientes basados ​​en la recuperación, GMAI puede recuperar contexto relevante de bases de datos existentes, en forma de artículos, imágenes o casos anteriores completos 19 , 20 .

Los modelos resultantes pueden generar advertencias que se explican por sí solas: “Es probable que este paciente desarrolle un síndrome de dificultad respiratoria aguda, porque fue ingresado recientemente con un traumatismo torácico grave y porque la presión parcial de oxígeno en la sangre arterial del paciente ha disminuido de manera constante, a pesar de una mayor fracción inspirada de oxígeno”.

Como a un modelo GMAI incluso se le puede solicitar que proporcione recomendaciones de tratamiento, a pesar de estar entrenado principalmente con datos observacionales, la capacidad del modelo para inferir y aprovechar las relaciones causales entre los conceptos médicos y los hallazgos clínicos desempeñará un papel clave para la aplicabilidad clínica 21 .

Por último, al acceder a un rico conocimiento molecular y clínico, un modelo GMAI puede resolver tareas con datos limitados aprovechando el conocimiento de problemas relacionados, como lo ejemplifican los trabajos iniciales sobre la reutilización de fármacos basada en IA 22 .

Casos de uso de GMAI

Presentamos seis posibles casos de uso de GMAI que apuntan a diferentes bases de usuarios y disciplinas, aunque nuestra lista no es exhaustiva. Si bien ya se han realizado esfuerzos de IA en estas áreas, esperamos que GMAI permita soluciones integrales para cada problema.

Informes de radiología fundamentados

GMAI permite una nueva generación de asistentes de radiología digitales versátiles, que respaldan a los radiólogos en todo su flujo de trabajo y reducen notablemente las cargas de trabajo. Los modelos GMAI pueden redactar automáticamente informes de radiología que describen tanto las anomalías como los hallazgos normales relevantes, al tiempo que tienen en cuenta el historial del paciente. Estos modelos pueden proporcionar más ayuda a los médicos al combinar informes de texto con visualizaciones interactivas, como resaltar la región descrita por cada frase. Los radiólogos también pueden mejorar su comprensión de los casos al conversar con los modelos GMAI: «¿Puede resaltar alguna lesión nueva de esclerosis múltiple que no estuviera presente en la imagen anterior?».

Una solución debe interpretar con precisión varias modalidades de radiología, detectando incluso anomalías sutiles. Además, debe integrar información del historial del paciente, incluidas fuentes como indicaciones, resultados de laboratorio e imágenes anteriores, al describir una imagen. También debe comunicarse con los médicos mediante múltiples modalidades, proporcionando respuestas de texto e imágenes anotadas dinámicamente. Para ello, debe ser capaz de tener una base visual, señalando con precisión exactamente qué parte de una imagen respalda cualquier afirmación. Aunque esto se puede lograr a través del aprendizaje supervisado en imágenes etiquetadas por expertos, los métodos de explicabilidad como Grad-CAM podrían permitir enfoques autosupervisados, sin necesidad de datos etiquetados 23 .

Procedimientos aumentados

Anticipamos un modelo GMAI quirúrgico que pueda ayudar a los equipos quirúrgicos con los procedimientos: “No podemos encontrar la ruptura intestinal. Verifique si nos perdimos una vista de alguna sección intestinal en la transmisión visual de los últimos 15 minutos”. Los modelos GMAI pueden realizar tareas de visualización, potencialmente anotando transmisiones de video de un procedimiento en tiempo real. También pueden proporcionar información en forma hablada, por ejemplo, generando alertas cuando se omiten pasos de un procedimiento o leyendo literatura relevante cuando los cirujanos encuentran fenómenos anatómicos raros.

a , Un modelo GMAI se entrena en múltiples modalidades de datos médicos, a través de técnicas como el aprendizaje autosupervisado. Para permitir interacciones flexibles, las modalidades de datos como imágenes o datos de EHR se pueden emparejar con el lenguaje, ya sea en forma de datos de texto o de voz. A continuación, el modelo GMAI necesita acceder a varias fuentes de conocimiento médico para llevar a cabo tareas de razonamiento médico, desbloqueando una gran cantidad de capacidades que se pueden utilizar en aplicaciones posteriores. El modelo GMAI resultante luego lleva a cabo tareas que el usuario puede especificar en tiempo real. Para esto, el modelo GMAI puede recuperar información contextual de fuentes como gráficos de conocimiento o bases de datos, aprovechando el conocimiento médico formal para razonar sobre tareas nunca antes vistas. 
b , El modelo GMAI construye la base para numerosas aplicaciones en disciplinas clínicas, cada una de las cuales requiere una cuidadosa validación y evaluación regulatoria.

Este modelo también puede ayudar con procedimientos fuera del quirófano, como los procedimientos endoscópicos. Un modelo que captura el contexto topográfico y razona con el conocimiento anatómico puede sacar conclusiones sobre fenómenos no vistos previamente. Por ejemplo, podría deducir que una gran estructura vascular que aparece en una duodenoscopia puede indicar una fístula aortoduodenal (es decir, una conexión anormal entre la aorta y el intestino delgado), a pesar de nunca haber encontrado una antes (Fig. 2 , panel derecho). GMAI puede resolver esta tarea detectando primero el vaso, luego identificando la ubicación anatómica y finalmente considerando las estructuras vecinas.

a , GMAI podría permitir un soporte de decisiones versátil y autoexplicativo en la cabecera del paciente. 
b , Los informes de radiología fundamentada están equipados con enlaces en los que se puede hacer clic para visualizar cada hallazgo. 
c , GMAI tiene el potencial de clasificar fenómenos que nunca se habían encontrado antes durante el desarrollo del modelo. En los procedimientos aumentados, un hallazgo atípico poco común se explica con un razonamiento paso a paso aprovechando el conocimiento del dominio médico y el contexto topográfico. El ejemplo presentado está inspirado en un informe de caso 58 . Imagen de la fístula en el panel 
c adaptada de la ref. 58 , CC BY 3.0 .

Una solución necesita integrar las modalidades de visión, lenguaje y audio, utilizando un modelo de visión-audio-lenguaje para aceptar consultas habladas y llevar a cabo tareas utilizando la información visual. Los modelos de visión-lenguaje ya han ganado terreno, y el desarrollo de modelos que incorporen más modalidades es simplemente una cuestión de tiempo 24 . Los enfoques pueden basarse en trabajos anteriores que combinan modelos de lenguaje y gráficos de conocimiento 25 , 26 para razonar paso a paso sobre las tareas quirúrgicas. Además, la GMAI implementada en entornos quirúrgicos probablemente enfrentará fenómenos clínicos inusuales que no se pueden incluir durante el desarrollo del modelo, debido a su rareza, un desafío conocido como la larga cola de condiciones no vistas 27 . Las habilidades de razonamiento médico serán cruciales tanto para detectar valores atípicos previamente no vistos como para explicarlos, como se ejemplifica en la Figura 2 .

Apoyo para la toma de decisiones en la cabecera del paciente

GMAI permite una nueva clase de herramientas de apoyo a la toma de decisiones clínicas junto a la cama que amplían los sistemas de alerta temprana basados ​​en IA existentes, proporcionando explicaciones más detalladas, así como recomendaciones para la atención futura. Por ejemplo, los modelos GMAI para el apoyo a la toma de decisiones junto a la cama pueden aprovechar el conocimiento clínico y proporcionar explicaciones de texto libre y resúmenes de datos: “Advertencia: Esta paciente está a punto de entrar en estado de shock. Su circulación se ha desestabilizado en los últimos 15 minutos <enlace al resumen de datos>. Próximos pasos recomendados: <enlace a la lista de verificación>”.

Una solución debe analizar las fuentes de registros médicos electrónicos (por ejemplo, parámetros vitales y de laboratorio, y notas clínicas) que involucran múltiples modalidades, incluidos datos de series temporales de texto y numéricos. Debe poder resumir el estado actual de un paciente a partir de datos brutos, proyectar posibles estados futuros del paciente y recomendar decisiones de tratamiento. Una solución puede proyectar cómo cambiará la condición de un paciente con el tiempo, utilizando técnicas de modelado de lenguaje para predecir sus registros textuales y numéricos futuros a partir de sus datos anteriores. Los conjuntos de datos de entrenamiento pueden emparejar específicamente los datos de series temporales de registros médicos electrónicos con los resultados finales del paciente, que pueden recopilarse de los informes de alta y los códigos de la CIE (Clasificación Internacional de Enfermedades). Además, el modelo debe poder comparar tratamientos potenciales y estimar sus efectos, todo ello adhiriéndose a las pautas terapéuticas y otras políticas relevantes. El modelo puede adquirir el conocimiento necesario a través de gráficos de conocimiento clínico y fuentes de texto como publicaciones académicas, libros de texto educativos, pautas internacionales y políticas locales. Los enfoques pueden inspirarse en REALM, un modelo de lenguaje que responde a las consultas recuperando primero un único documento relevante y luego extrayendo la respuesta de éste, lo que hace posible que los usuarios identifiquen la fuente exacta de cada respuesta 20 .

Toma de notas interactiva

La documentación representa una parte integral, pero laboriosa, de los flujos de trabajo clínicos. Al monitorear la información electrónica de los pacientes, así como las conversaciones entre médicos y pacientes, los modelos GMAI redactarán de manera preventiva documentos como notas electrónicas e informes de alta para que los médicos simplemente los revisen, editen y aprueben. De este modo, GMAI puede reducir sustancialmente los gastos administrativos, lo que permite a los médicos dedicar más tiempo a los pacientes.

Una solución GMAI puede aprovechar los avances recientes en modelos de conversión de voz a texto 28 , especializando técnicas para aplicaciones médicas. Debe interpretar con precisión las señales de voz, entendiendo la jerga médica y las abreviaturas. Además, debe contextualizar los datos de voz con información de los registros médicos electrónicos (por ejemplo, lista de diagnósticos, parámetros vitales e informes de alta anteriores) y luego generar notas o informes de texto libre. Será esencial obtener el consentimiento antes de grabar cualquier interacción con un paciente. Incluso antes de que se recopilen esas grabaciones en grandes cantidades, es posible que ya se desarrollen modelos tempranos de toma de notas aprovechando los datos de interacción médico-paciente recopilados a partir de aplicaciones de chat.

Chatbots para pacientes

GMAI tiene el potencial de impulsar nuevas aplicaciones para el apoyo a los pacientes, proporcionando atención de alta calidad incluso fuera de los entornos clínicos. Por ejemplo, GMAI puede crear una visión holística de la condición de un paciente utilizando múltiples modalidades, que van desde descripciones no estructuradas de los síntomas hasta lecturas continuas del monitor de glucosa y registros de medicación proporcionados por el paciente. Después de interpretar estos tipos heterogéneos de datos, los modelos GMAI pueden interactuar con el paciente, proporcionando consejos y explicaciones detalladas. Es importante destacar que GMAI permite una comunicación accesible, proporcionando información clara, legible o audible sobre el horario del paciente. Mientras que las aplicaciones similares dependen de los médicos para ofrecer apoyo personalizado en la actualidad 29 , GMAI promete reducir o incluso eliminar la necesidad de la intervención de expertos humanos, haciendo que las aplicaciones estén disponibles a mayor escala. Al igual que con las aplicaciones de chat en vivo existentes, los usuarios aún podrían interactuar con un consejero humano a pedido.

La creación de chatbots orientados al paciente con GMAI plantea dos desafíos especiales. En primer lugar, los modelos orientados al paciente deben poder comunicarse claramente con audiencias no técnicas, utilizando un lenguaje simple y claro sin sacrificar la precisión del contenido. La inclusión de textos médicos centrados en el paciente en los conjuntos de datos de entrenamiento puede permitir esta capacidad. En segundo lugar, estos modelos deben trabajar con diversos datos recopilados por los pacientes. Los datos proporcionados por los pacientes pueden representar modalidades inusuales; por ejemplo, los pacientes con requisitos dietéticos estrictos pueden enviar fotos de antes y después de sus comidas para que los modelos GMAI puedan monitorear automáticamente su ingesta de alimentos. Los datos recopilados por los pacientes también es probable que sean más ruidosos en comparación con los datos de un entorno clínico, ya que los pacientes pueden ser más propensos a errores o usar dispositivos menos confiables al recopilar datos. Nuevamente, la incorporación de datos relevantes en el entrenamiento puede ayudar a superar este desafío. Sin embargo, los modelos GMAI también deben monitorear su propia incertidumbre y tomar las medidas adecuadas cuando no tienen suficientes datos confiables.

Generación de texto a proteína

GMAI podría generar secuencias de aminoácidos de proteínas y sus estructuras tridimensionales a partir de indicaciones textuales. Inspirado por los modelos generativos existentes de secuencias de proteínas 30 , un modelo de este tipo podría condicionar su generación a las propiedades funcionales deseadas. Por el contrario, un modelo GMAI con conocimientos biomédicos promete interfaces de diseño de proteínas que son tan flexibles y fáciles de usar como los modelos generativos de texto a imagen concurrentes como Stable Diffusion o DALL-E 31 , 32 . Además, al desbloquear capacidades de aprendizaje en contexto, un modelo de texto a proteína basado en GMAI puede recibir indicaciones con un puñado de instrucciones de ejemplo emparejadas con secuencias para definir dinámicamente una nueva tarea de generación, como la generación de una proteína que se une con alta afinidad a un objetivo específico mientras cumple con restricciones adicionales.

Ya ha habido esfuerzos tempranos para desarrollar modelos de base para secuencias biológicas 33 , 34 , incluyendo RFdiffusion, que genera proteínas sobre la base de especificaciones simples (por ejemplo, un objetivo de unión) 35 . Sobre la base de este trabajo, la solución basada en GMAI puede incorporar tanto el lenguaje como los datos de secuencias de proteínas durante el entrenamiento para ofrecer una interfaz de texto versátil. Una solución también podría aprovechar los avances recientes en IA multimodal como CLIP, en el que los modelos se entrenan conjuntamente en datos pareados de diferentes modalidades 16 . Al crear un conjunto de datos de entrenamiento de este tipo, las secuencias de proteínas individuales deben emparejarse con pasajes de texto relevantes (por ejemplo, del cuerpo de la literatura biológica) que describan las propiedades de las proteínas. Las iniciativas a gran escala, como UniProt, que mapean las funciones de las proteínas para millones de proteínas, serán indispensables para este esfuerzo 36 .

Oportunidades y desafíos de GMAI

La GMAI tiene el potencial de afectar la práctica médica al mejorar la atención y reducir el agotamiento de los médicos. Aquí detallamos las ventajas generales de los modelos GMAI. También describimos los desafíos críticos que se deben abordar para garantizar una implementación segura, ya que los modelos GMAI funcionarán en entornos particularmente de alto riesgo, en comparación con los modelos básicos en otros campos.

Cambios de paradigma con GMAI

Controlabilidad

GMAI permite a los usuarios controlar con precisión el formato de sus resultados, lo que facilita el acceso y la comprensión de información médica compleja. Por ejemplo, habrá modelos GMAI que puedan reformular respuestas en lenguaje natural a pedido. De manera similar, las visualizaciones proporcionadas por GMAI pueden personalizarse cuidadosamente, por ejemplo, cambiando el punto de vista o etiquetando características importantes con texto. Los modelos también pueden ajustar potencialmente el nivel de detalle específico del dominio en sus resultados o traducirlos a varios idiomas, comunicándose de manera efectiva con diversos usuarios. Finalmente, la flexibilidad de GMAI le permite adaptarse a regiones u hospitales particulares, siguiendo las costumbres y políticas locales. Los usuarios pueden necesitar instrucciones formales sobre cómo consultar un modelo GMAI y usar sus resultados de manera más efectiva.

Adaptabilidad

Los modelos de IA médica existentes tienen dificultades para hacer frente a los cambios de distribución, en los que las distribuciones de datos cambian debido a cambios en las tecnologías, los procedimientos, los entornos o las poblaciones 37 , 38 . Sin embargo, la GMAI puede seguir el ritmo de los cambios mediante el aprendizaje en contexto. Por ejemplo, un hospital puede enseñar a un modelo de GMAI a interpretar rayos X de un escáner completamente nuevo simplemente proporcionando indicaciones que muestren un pequeño conjunto de ejemplos. Por lo tanto, la GMAI puede adaptarse a nuevas distribuciones de datos sobre la marcha, mientras que los modelos de IA médica convencionales tendrían que volver a entrenarse en un conjunto de datos completamente nuevo. En la actualidad, el aprendizaje en contexto se observa predominantemente en grandes modelos de lenguaje 39 . Para garantizar que la GMAI pueda adaptarse a los cambios en el contexto, una columna vertebral del modelo GMAI debe entrenarse en datos extremadamente diversos de múltiples fuentes y modalidades complementarias. Por ejemplo, para adaptarse a las variantes emergentes de la enfermedad por coronavirus 2019, un modelo exitoso puede recuperar características de variantes pasadas y actualizarlas cuando se enfrenta a un nuevo contexto en una consulta. Por ejemplo, un médico podría decir: “Revise estas radiografías de tórax para ver si hay neumonía por ómicron. En comparación con la variante Delta, considere los infiltrados que rodean los bronquios y los vasos sanguíneos como signos indicativos” 40 .

Aunque los usuarios pueden ajustar manualmente el comportamiento del modelo mediante indicaciones, también puede haber un papel para las nuevas técnicas que incorporen automáticamente la retroalimentación humana. Por ejemplo, los usuarios pueden calificar o comentar cada resultado de un modelo GMAI, de forma similar a como los usuarios califican los resultados de ChatGPT (lanzado por OpenAI en 2022), una interfaz de chat impulsada por IA. Esa retroalimentación se puede utilizar para mejorar el comportamiento del modelo, siguiendo el ejemplo de InstructGPT, un modelo creado mediante el uso de retroalimentación humana para refinar GPT-3 a través del aprendizaje de refuerzo 41 .

Aplicabilidad

Los modelos de IA a gran escala ya sirven como base para numerosas aplicaciones posteriores. Por ejemplo, a los pocos meses de su lanzamiento, GPT-3 impulsó más de 300 aplicaciones en varias industrias 42 . Como un prometedor ejemplo temprano de un modelo de base médica, CheXzero se puede aplicar para detectar docenas de enfermedades en radiografías de tórax sin ser entrenado en etiquetas explícitas para estas enfermedades 9 . Asimismo, el cambio hacia GMAI impulsará el desarrollo y lanzamiento de modelos de IA médica a gran escala con amplias capacidades, que formarán la base para varias aplicaciones clínicas posteriores. Muchas aplicaciones interactuarán con el propio modelo GMAI, utilizando directamente sus resultados finales. Otras pueden usar representaciones numéricas intermedias, que los modelos GMAI generan naturalmente en el proceso de producción de resultados, como insumos para pequeños modelos especializados que se pueden construir de forma económica para tareas específicas. Sin embargo, esta aplicabilidad flexible puede actuar como un arma de doble filo, ya que cualquier modo de falla que exista en el modelo de base se propagará ampliamente a través de las aplicaciones posteriores.

Desafíos de GMAI

Validación

Los modelos GMAI serán excepcionalmente difíciles de validar, debido a su versatilidad sin precedentes. En la actualidad, los modelos de IA están diseñados para tareas específicas, por lo que necesitan ser validados solo para aquellos casos de uso predefinidos (por ejemplo, diagnosticar un tipo particular de cáncer a partir de una resonancia magnética cerebral). Sin embargo, los modelos GMAI pueden llevar a cabo tareas nunca antes vistas que un usuario final establezca por primera vez (por ejemplo, diagnosticar cualquier enfermedad en una resonancia magnética cerebral), por lo que es categóricamente más difícil anticipar todos sus modos de falla. Los desarrolladores y los reguladores serán responsables de explicar cómo se han probado los modelos GMAI y para qué casos de uso han sido aprobados. Las propias interfaces GMAI deben estar diseñadas para generar advertencias de «uso no indicado en la etiqueta» al ingresar a territorios inexplorados, en lugar de fabricar con confianza información inexacta. En términos más generales, las capacidades excepcionalmente amplias de GMAI requieren previsión regulatoria, lo que exige que las políticas institucionales y gubernamentales se adapten al nuevo paradigma, y ​​también reconfigurarán los acuerdos de seguros y la asignación de responsabilidad.

Verificación

En comparación con los modelos de IA convencionales, los modelos GMAI pueden manejar entradas y salidas inusualmente complejas, lo que hace que sea más difícil para los médicos determinar su exactitud. Por ejemplo, los modelos convencionales pueden considerar solo un estudio de imágenes o una imagen de diapositiva completa al clasificar el cáncer de un paciente. En cada caso, un solo radiólogo o patólogo podría verificar si los resultados del modelo son correctos. Sin embargo, un modelo GMAI puede considerar ambos tipos de entradas y puede generar una clasificación inicial, una recomendación de tratamiento y una justificación multimodal que involucra visualizaciones, análisis estadísticos y referencias a la literatura. En este caso, puede ser necesario un panel multidisciplinario (compuesto por radiólogos, patólogos, oncólogos y especialistas adicionales) para juzgar el resultado del GMAI. Por lo tanto, la verificación de los resultados del GMAI representa un desafío serio, tanto durante la validación como después de que se implementan los modelos.

Los creadores pueden facilitar la verificación de los resultados de GMAI incorporando técnicas de explicabilidad. Por ejemplo, los resultados de un GMAI pueden incluir enlaces a pasajes de la literatura que sirvan de apoyo, lo que permite a los médicos verificar de manera más eficiente las predicciones de GMAI. Recientemente se han propuesto otras estrategias para verificar los resultados de un modelo sin la intervención de expertos humanos 43 . Por último, es de vital importancia que los modelos GMAI expresen con precisión la incertidumbre, evitando así, en primer lugar, declaraciones demasiado confiadas.

Sesgos sociales

Trabajos previos ya han demostrado que los modelos de IA médica pueden perpetuar sesgos y causar daño a poblaciones marginadas. Pueden adquirir sesgos durante el entrenamiento, cuando los conjuntos de datos subrepresentan a ciertos grupos de pacientes o contienen correlaciones perjudiciales 44 , 45 . Estos riesgos probablemente serán aún más pronunciados al desarrollar GMAI. La escala y complejidad sin precedentes de los conjuntos de datos de entrenamiento necesarios harán que sea difícil garantizar que estén libres de sesgos indeseables. Aunque los sesgos ya plantean un desafío para la IA convencional en la salud, son de particular relevancia para GMAI, ya que una evaluación reciente a gran escala mostró que el sesgo social puede aumentar con la escala del modelo 46 .

Los modelos GMAI deben validarse exhaustivamente para garantizar que no tengan un rendimiento inferior al esperado en poblaciones específicas, como los grupos minoritarios. Además, los modelos deberán someterse a auditorías y regulaciones continuas incluso después de su implementación, ya que surgirán nuevos problemas a medida que los modelos se enfrenten a nuevas tareas y entornos. Los concursos con premios podrían incentivar a la comunidad de IA a examinar más a fondo los modelos GMAI. Por ejemplo, se podría recompensar a los participantes por encontrar indicaciones que produzcan contenido dañino o expongan otros modos de falla. Identificar y corregir rápidamente los sesgos debe ser una prioridad máxima para los desarrolladores, proveedores y reguladores.

Privacidad

El desarrollo y uso de modelos GMAI plantea graves riesgos para la privacidad del paciente. Los modelos GMAI pueden tener acceso a un amplio conjunto de características de los pacientes, incluidas mediciones y señales clínicas, firmas moleculares e información demográfica, así como datos de seguimiento conductual y sensorial. Además, los modelos GMAI probablemente utilizarán arquitecturas grandes, pero los modelos más grandes son más propensos a memorizar datos de entrenamiento y repetirlos directamente a los usuarios 47 . Como resultado, existe un grave riesgo de que los modelos GMAI puedan exponer datos confidenciales de los pacientes en los conjuntos de datos de entrenamiento. Mediante la desidentificación y la limitación de la cantidad de información recopilada para pacientes individuales, se puede reducir el daño causado por los datos expuestos.

Sin embargo, las preocupaciones por la privacidad no se limitan a los datos de entrenamiento, ya que los modelos GMAI implementados también pueden exponer datos de pacientes actuales. Los ataques rápidos pueden engañar a modelos como GPT-3 para que ignoren instrucciones anteriores 48 . Como ejemplo, imagine que se le ha ordenado a un modelo GMAI que nunca revele información de pacientes a usuarios no acreditados. Un usuario malintencionado podría obligar al modelo a ignorar esa instrucción para extraer datos confidenciales.

Escala

Los modelos de base recientes han aumentado notablemente de tamaño, lo que ha aumentado los costos asociados con la recopilación de datos y el entrenamiento de los modelos. Los modelos de esta escala requieren conjuntos de datos de entrenamiento masivos que, en el caso de GPT-3, contienen cientos de miles de millones de tokens y son costosos de recopilar. Además, PaLM, un modelo de 540 mil millones de parámetros desarrollado por Google, requirió un estimado de 8,4 millones de horas de chips de unidad de procesamiento tensorial v4 para el entrenamiento, utilizando aproximadamente entre 3.000 y 6.000 chips a la vez, lo que equivale a millones de dólares en costos computacionales 49 . Además, desarrollar modelos tan grandes conlleva un costo ambiental sustancial, ya que se ha estimado que el entrenamiento de cada modelo genera hasta cientos de toneladas de CO 2 equivalente 50 .

Estos costos plantean la cuestión de qué tan grandes deben ser los conjuntos de datos y los modelos. Un estudio reciente estableció un vínculo entre el tamaño del conjunto de datos y el tamaño del modelo, recomendando 20 veces más tokens que parámetros para un rendimiento óptimo, pero los modelos básicos existentes se entrenaron con éxito con una relación token-parámetro menor 51 . Por lo tanto, sigue siendo difícil estimar qué tan grandes deben ser los modelos y los conjuntos de datos al desarrollar modelos GMAI, especialmente porque la escala necesaria depende en gran medida del caso de uso médico particular.

La recopilación de datos planteará un desafío particular para el desarrollo de GMAI, debido a la necesidad de cantidades sin precedentes de datos médicos. Los modelos básicos existentes generalmente se entrenan con datos heterogéneos obtenidos al rastrear la web, y esas fuentes de datos de propósito general pueden usarse potencialmente para entrenar previamente los modelos GMAI (es decir, llevar a cabo una ronda preparatoria inicial de entrenamiento). Aunque estos conjuntos de datos no se centran en la medicina, ese entrenamiento previo puede dotar a los modelos GMAI de capacidades útiles. Por ejemplo, al recurrir a textos médicos presentes en sus conjuntos de datos de entrenamiento, los modelos de propósito general como Flan-PaLM o ChatGPT pueden responder con precisión a preguntas médicas y lograr puntajes de aprobación en el Examen de Licencia Médica de los Estados Unidos 10 , 52 , 53 . Sin embargo, el desarrollo del modelo GMAI probablemente también requerirá conjuntos de datos masivos que se centren específicamente en el dominio médico y sus modalidades. Estos conjuntos de datos deben ser diversos, anónimos y organizados en formatos compatibles, y los procedimientos para recopilar y compartir datos deberán cumplir con políticas heterogéneas en todas las instituciones y regiones. Aunque la recopilación de conjuntos de datos tan grandes planteará un desafío sustancial, estos datos generalmente no requerirán etiquetas costosas de expertos, dado el éxito de la autosupervisión 9 , 54 . Además, las técnicas de autosupervisión multimodal se pueden utilizar para entrenar modelos en múltiples conjuntos de datos que contienen mediciones de unas pocas modalidades cada uno, lo que reduce la necesidad de conjuntos de datos grandes y costosos que contienen mediciones de muchas modalidades por paciente. En otras palabras, un modelo se puede entrenar en un conjunto de datos con datos de EHR y MRI y un segundo con EHR y datos genómicos, sin requerir un gran conjunto de datos que contenga EHR, MRI y datos genómicos, conjuntamente. Los esfuerzos de intercambio de datos a gran escala, como la base de datos MIMIC (Medical Information Mart for Intensive Care) 55 o el Biobanco del Reino Unido 56 , desempeñarán un papel fundamental en GMAI, y deberían extenderse a países subrepresentados para crear conjuntos de datos de entrenamiento más grandes, más ricos e inclusivos.

El tamaño de los modelos GMAI también causará desafíos técnicos. Además de ser costosos de entrenar, los modelos GMAI pueden ser difíciles de implementar, requiriendo hardware especializado de alta gama al que puede ser difícil para los hospitales acceder. Para ciertos casos de uso (por ejemplo, chatbots), los modelos GMAI se pueden almacenar en clústeres de cómputo centrales mantenidos por organizaciones con profunda experiencia técnica, como DALL-E o GPT-3. Sin embargo, otros modelos GMAI pueden necesitar ser implementados localmente en hospitales u otros entornos médicos, eliminando la necesidad de una conexión de red estable y manteniendo los datos confidenciales de los pacientes en el sitio. En estos casos, el tamaño del modelo puede necesitar ser reducido a través de técnicas como la destilación de conocimiento, en la que los modelos a gran escala enseñan modelos más pequeños que pueden implementarse más fácilmente bajo restricciones prácticas 57 .

Conclusión

Los modelos básicos tienen el potencial de transformar la atención médica. La clase de modelos básicos avanzados que hemos descrito, GMAI, analizará de manera intercambiable múltiples modalidades de datos, aprenderá nuevas tareas sobre la marcha y aprovechará el conocimiento del dominio, lo que ofrece oportunidades en una gama casi ilimitada de tareas médicas. La flexibilidad de GMAI permite que los modelos sigan siendo relevantes en nuevos entornos y sigan el ritmo de las enfermedades y tecnologías emergentes sin necesidad de volver a capacitarlos constantemente desde cero. Las aplicaciones basadas en GMAI se implementarán tanto en entornos clínicos tradicionales como en dispositivos remotos como teléfonos inteligentes, y predecimos que serán útiles para diversas audiencias, lo que permitirá aplicaciones tanto para médicos como para pacientes.

A pesar de su potencial, los modelos GMAI presentan desafíos únicos. Su extrema versatilidad dificulta su validación integral y su tamaño puede generar mayores costos computacionales. Habrá dificultades particulares asociadas con la recopilación y el acceso a los datos, ya que los conjuntos de datos de entrenamiento de GMAI no solo deben ser grandes sino también diversos, con protecciones de privacidad adecuadas. Imploramos a la comunidad de IA y a las partes interesadas clínicas que consideren cuidadosamente estos desafíos desde el principio, para garantizar que GMAI brinde valor clínico de manera constante.

En última instancia, GMAI promete posibilidades sin precedentes para la atención médica, apoyando a los médicos en una variedad de tareas esenciales, superando barreras de comunicación, haciendo que la atención de alta calidad sea más accesible y reduciendo la carga administrativa sobre los médicos para permitirles pasar más tiempo con los pacientes.

Publicado por saludbydiaz

Especialista en Medicina Interna-nefrología-terapia intensiva-salud pública. Director de la Carrera Economía y gestión de la salud de ISALUD. Director Médico del Sanatorio Sagrado Corazon Argentina. 2010-hasta la fecha. Titular de gestión estratégica en salud

Deja un comentario