Mejoras en el diagnóstico secuencial con AI
Harsha Nori* , Mayank Daswani* , Christopher Kelly* , Scott Lundberg* , Marco Tulio Ribeiro* , Marc Wilson* , Xiaoxuan Liu, Viknesh Sounderajah, Jonathan Carlson, Matthew P Lungren, Bay Gross, Peter Hames, Mustafa Suleyman, Dominic King, Eric Horvitz Microsoft AI 30 de junio de 2025

El estudio aborda el diagnóstico secuencial, un proceso clave en la práctica médica en el que los médicos refinan hipótesis diagnósticas a través de iteraciones de preguntas y pruebas. Para evaluar este tipo de razonamiento clínico en modelos de lenguaje, los investigadores presentan el Sequential Diagnosis Benchmark (SDBench), un marco interactivo que utiliza 304 casos del New England Journal of Medicine (NEJM-CPC) transformados en encuentros clínicos escalonados. Este marco permite que un médico o IA solicite información adicional iterativamente a un modelo de guardián que revela hallazgos solo cuando son consultados, evaluando tanto la precisión del diagnóstico como los costos asociados.
Además, se introduce el MAI Diagnostic Orchestrator (MAI-DxO), un sistema diseñado para simular un panel de médicos y optimizar los diagnósticos mediante estrategias específicas como la selección de pruebas de alto valor y bajo costo. Este sistema, combinado con modelos avanzados como OpenAI o3, alcanza una precisión diagnóstica del 85,5%, superando tanto a médicos humanos como a otros modelos comerciales en términos de precisión y rentabilidad. En general, MAI-DxO logra reducir costos diagnósticos en un 20% en comparación con médicos y hasta un 70% en comparación con modelos estándar, demostrando el potencial de los sistemas de IA orquestados para mejorar tanto la precisión como la eficiencia en el ámbito clínico.
El equipo de IA de Microsoft comparte una investigación que demuestra cómo la IA puede investigar y resolver de forma secuencial los desafíos de diagnóstico más complejos de la medicina: casos que los médicos expertos tienen dificultades para responder.
Comparando con los registros de casos reales publicados semanalmente en el New England Journal of Medicine, demostramos que Microsoft AI Diagnostic Orchestrator (MAI-DxO) diagnostica correctamente hasta el 85 % de los casos del NEJM, una tasa cuatro veces superior a la de un grupo de médicos con experiencia. MAI-DxO también permite obtener el diagnóstico correcto de forma más rentable que los médicos.
Este trabajo es muy interesante puesto que un actor principal de la revolución de la era de la información se incorpora al health care 4.0 en un modelo de inteligencia artificial dedicado a la ayuda diagnóstica, para casos tan complejos como los del New England Journal of Medicine. Esto es lo que motiva su posteo y abre la participación en competencia de Microsoft.
Resumen
La inteligencia artificial es muy prometedora para ampliar el acceso al conocimiento y el razonamiento médicos expertos. Sin embargo, la mayoría de las evaluaciones de los modelos lingüísticos se basan en viñetas estáticas y preguntas de opción múltiple que no reflejan la complejidad y los matices de la medicina basada en la evidencia en entornos del mundo real. En la práctica clínica, los médicos formulan y revisan iterativamente las hipótesis diagnósticas, adaptando cada pregunta y prueba subsiguiente a lo que acaban de aprender, y sopesan la evolución de la evidencia antes de comprometerse con un diagnóstico final. Para emular este proceso de diagnóstico iterativo, presentamos el Sequential Diagnosis Benchmark, que transforma 304 casos de la conferencia clinicopatológica del New England Journal of Medicine (NEJM-CPC) en encuentros de diagnóstico escalonados. Un médico o IA comienza con un breve resumen de caso y debe solicitar iterativamente detalles adicionales de un modelo de guardián que revela los hallazgos solo cuando se consulta explícitamente. El rendimiento se evalúa no solo por la precisión del diagnóstico, sino también por el costo de las visitas al médico y las pruebas realizadas. Para complementar el punto de referencia, presentamos el MAI Diagnostic Orchestrator (MAIDxO), un orquestador independiente del modelo que simula un panel de médicos, propone diagnósticos diferenciales probables y selecciona estratégicamente pruebas rentables y de alto valor. Cuando se combina con el modelo o3 de OpenAI, MAI-DxO logra una precisión diagnóstica del 80%, cuatro veces superior a la media del 20% de los médicos generalistas. MAI-DxO también reduce los costos de diagnóstico en un 20% en comparación con los médicos, y en un 70% en comparación con el o3 comercial. Cuando se configura para obtener la máxima precisión, MAI-DxO logra una precisión del 85,5%. Estas ganancias de rendimiento con MAI-DxO se generalizan en modelos de las familias OpenAI, Gemini, Claude, Grok, DeepSeek y Llama.
Destacamos cómo los sistemas de IA, cuando se les guía para pensar de forma iterativa y actuar con juicio, pueden mejorar tanto la precisión del diagnóstico como la rentabilidad de la atención clínica.
Introducción
El diagnóstico secuencial es una piedra angular del razonamiento clínico, en el que los médicos refinan sus hipótesis diagnósticas paso a paso a través de preguntas y pruebas iterativas.
La Figura 1 ilustra cómo un diagnosticador podría abordar un caso dada la información inicial limitada, planteando preguntas amplias y luego cada vez más específicas para reducir la diferencia a una probable neoplasia maligna, seguidas de imágenes, biopsias y estudios de especialistas para llegar a un diagnóstico final. La resolución de estos casos exige un conjunto complementario de habilidades: identificar las próximas preguntas o pruebas más informativas, equilibrar el rendimiento diagnóstico marginal con el costo y la carga del paciente, y reconocer cuándo la evidencia es suficiente para hacer un diagnóstico confiable. Los modelos lingüísticos (LM) han demostrado una impresionante capacidad diagnóstica, con estudios recientes que muestran un rendimiento de primer nivel en los exámenes de licencia médica y viñetas diagnósticas altamente estructuradas (Cabral et al., 2024; Goh et al., 2024; McDuff et al., 2025; Nori et al., 2023a,b, 2024). Sin embargo, estas evaluaciones se realizan en condiciones artificiales que difieren notablemente de la práctica clínica del mundo real. La mayoría de las evaluaciones diagnósticas presentan modelos con viñetas cuidadosamente empaquetadas que agrupan la queja principal, la historia de la enfermedad actual, los hallazgos clave del examen físico y los resultados de las pruebas, y luego le piden al modelo que seleccione un diagnóstico de un conjunto de respuestas predefinidas. Al reducir el ciclo de diagnóstico secuencial a un cuestionario de opción múltiple de un solo turno, los puntos de referencia estáticos corren el riesgo de exagerar la competencia del modelo y ocultar las posibles debilidades, incluido el cierre prematuro del diagnóstico, el orden indiscriminado de las pruebas y el anclaje en hipótesis tempranas. Presentamos el Sequential Diagnosis Benchmark (SDBench), un marco interactivo para evaluar agentes de diagnóstico (humanos o IA) a través de encuentros clínicos secuenciales realistas. SDBench transforma 304 casos de conferencias clinicopatológicas (CPC) del New England Journal of Medicine (NEJM) en encuentros de diagnóstico escalonados en los que un agente de diagnóstico decide qué preguntas hacer, qué pruebas solicitar y cuándo comprometerse con un diagnóstico final. La información es revelada por un Guardián de la información, un modelo de lenguaje que sirve como un oráculo para el caso del paciente.
El Gatekeeper divulga hallazgos clínicos específicos solo cuando se consulta explícitamente, y puede sintetizar información adicional consistente con el caso para pruebas no descritas en la narrativa original del CPC.
Una vez que se presenta un diagnóstico final, evaluamos su exactitud en comparación con el diagnóstico real y calculamos el costo acumulado estimado en el mundo real de todas las pruebas diagnósticas solicitadas. Al medir tanto la precisión diagnóstica como el costo, SDBench se alinea con los objetivos del Triple Objetivo (Berwick et al., 2008), que busca brindar atención de alta calidad a un costo sostenible. Una cohorte de médicos de EE. UU. y el Reino Unido con una mediana de 12 años de experiencia logró una precisión del 20% a un costo promedio de $ 2,963 por caso en SDBench, lo que subraya la dificultad inherente del punto de referencia. Los modelos comerciales listos para usar mostraron diversas compensaciones: GPT-4o logró una precisión del 49,3% a un costo menor (2.745 dólares por caja), mientras que o3 alcanzó una precisión del 78,6% a un costo sustancialmente mayor (7.850 dólares por caja). Además, presentamos MAI Diagnostic Orchestrator (MAI-DxO), un sistema orquestado diseñado conjuntamente con médicos que supera sistemáticamente tanto a los médicos humanos como a los modelos de lenguaje comerciales a lo largo de la frontera de Pareto de coste-precisión.
En comparación con los LM estándar, MAI-DxO mejora la precisión del diagnóstico al tiempo que reduce los costos médicos estimados en más de la mitad, lo que demuestra el poder de una orquestación cuidadosa incluso sobre modelos de última generación.
Por ejemplo, mientras que el modelo o3 estándar logró una precisión del 78,6% a un costo de 7.850 dólares, MAI-DxO logró un 79,9% a sólo 2.397 dólares, o un 85,5% a 7.184 dólares (Sección 4). Estos beneficios se derivan de un conjunto de estrategias inspiradas en los médicos: la simulación de un panel virtual de médicos con roles distintos, la estimación de los costos marginales entre las rondas de diagnóstico y el empleo de métodos de ensamblaje de modelos en las respuestas del modelo.
Fundamentalmente, estas técnicas son de propósito general: MAI-DxO aumentó la precisión de los modelos listos para usar de una variedad de proveedores en un promedio de 11 puntos porcentuales. En resumen, nuestras contribuciones acercan el diagnóstico basado en IA a la utilidad clínica en dos frentes clave. En primer lugar, SDBench trasciende los puntos de referencia estáticos al alinearse con la naturaleza dinámica e incierta del razonamiento diagnóstico del mundo real 2. Trabajos previos con CPC de NEJM para evaluar el razonamiento diagnóstico (Brodeur et al., 2024; McDuff et al., 2025) presentaron el caso completo por adelantado y pidieron los k diagnósticos principales, asumiendo implícitamente la información perfecta. Por el contrario, SDBench desafía a los agentes de diagnóstico a decidir qué preguntas o pruebas solicitar, en qué orden y cuándo comprometerse con un diagnóstico final, todo ello bajo restricciones de costos. Esto nos permite evaluar no solo la precisión diagnóstica, sino también la capacidad de un agente para buscar la evidencia más informativa de una manera consciente de los costos y reconocer cuándo se justifica la certeza diagnóstica. En segundo lugar, MAI-DxO muestra lo que ya se puede lograr con una orquestación reflexiva de los mejores modelos listos para usar de la actualidad, superando a los médicos experimentados en 4 veces en precisión y reduciendo los costos. Juntos, SDBench y MAI-DxO establecen una base empírica para avanzar en el diagnóstico asistido por IA bajo restricciones realistas. 2 Punto de referencia de diagnóstico secuencial Con el fin de construir el Punto de referencia de diagnóstico secuencial (SDBench), tomamos casos de la serie Case Challenge del New England Journal of Medicine (NEJM). El conjunto de datos abarca una amplia gama de presentaciones clínicas, con diagnósticos finales que van desde afecciones comunes (por ejemplo, «neumonía por Covid-19») hasta trastornos raros (por ejemplo, «hipoglucemia neonatal debido a un teratoma biológicamente activo»). Se recogieron 304 casos consecutivos publicados entre 2017 y 2025, convirtiendo cada uno de ellos en una simulación interactiva de razonamiento diagnóstico secuencial. Cada encuentro comienza con un breve resumen del paciente y su queja principal, por ejemplo: «Una mujer de 29 años fue ingresada en el hospital debido a dolor de garganta e hinchazón y sangrado periamigdalino. Los síntomas no disminuyeron con la terapia antimicrobiana» (Figura 1). A partir de ese punto de partida, un agente de diagnóstico (o médico humano) puede tomar una de las siguientes acciones:
1. Hacer preguntas: preguntas de texto libre para la historia o los detalles del examen («¿Ha viajado recientemente?»). Se permiten varias preguntas.
2. Solicitar pruebas diagnósticas: órdenes explícitas de laboratorios, imágenes o procedimientos («Solicitar una tomografía computarizada de tórax con contraste»).
3. Diagnóstico: un compromiso único con un diagnóstico final («El diagnóstico es histoplasmosis»). El agente Gatekeeper (descrito en detalle a continuación) interpreta cada solicitud, consulta el expediente completo del caso y responde en un lenguaje sencillo, ya sea proporcionando la información solicitada o emitiendo un rechazo si la consulta es demasiado vaga o inespecífica. Cuando el agente de diagnóstico elige la acción de «diagnóstico», el juez evalúa la exactitud del diagnóstico propuesto y un estimador de costos calcula el gasto total de todas las pruebas solicitadas. El agente de diagnóstico se evalúa a lo largo de dos ejes: la precisión del diagnóstico y el costo acumulado de las pruebas.

Portero. Implementamos el Gatekeeper utilizando un modelo de lenguaje (o4-mini) con acceso al archivo completo del caso NEJM CPC, incluido el diagnóstico final. Guiado por las reglas ideadas por el médico, el Guardián revela solo la información que un médico del mundo real podría obtener legítimamente de una consulta o prueba determinada, como resultados de pruebas específicas, historial sucinto del paciente o hallazgos de exámenes físicos. Se niega explícitamente a proporcionar impresiones diagnósticas, interpretar los resultados de las pruebas u ofrecer pistas que no estarían disponibles en un encuentro clínico genuino. Las imágenes se retienen hasta que se ordenen explícitamente; los hallazgos patognomónicos se divulgan solo cuando se solicita la prueba confirmatoria exacta; y las solicitudes vagas o demasiado amplias desencadenan rechazos educados. Las preguntas directas sobre la historia clínica o el examen del paciente devuelven respuestas en lenguaje clínico, lo que refleja fielmente la tarea de extracción de información a la que se enfrentan los médicos al revisar una historia clínica. En la figura 1 se muestran ejemplos de solicitudes y respuestas. A través de este enfoque, el Guardián elimina los spoilers y el sesgo retrospectivo comúnmente incrustado en los artículos de casos educativos. En los primeros estudios piloto con médicos y LM, observamos que una fracción significativa de la información solicitaba detalles específicos del paciente o resultados de pruebas que no estaban presentes en los casos publicados originalmente. Nuestra estrategia inicial de responder «No disponible» tuvo efectos secundarios no deseados: señaló implícitamente qué consultas estaban fuera de camino y desalentó vías alternativas válidas de razonamiento clínico. Para solucionar este problema, cambiamos el Gatekeeper para que devolviera resultados sintéticos realistas para las consultas que no se trataban en el texto original. Estos hallazgos son numérica o descriptivamente consistentes con el resto del caso, sin ninguna indicación de que sean sintéticos. Al devolver lo que probablemente se habría encontrado si se hubiera realizado la prueba, el Gatekeeper preserva el realismo clínico al tiempo que evita pistas implícitas de los datos faltantes. Validamos aún más el comportamiento del Gatekeeper pidiéndole a un panel de médicos que revisaran las respuestas de 508 Gatekeeper, que comprendían salidas reales y sintéticas. Se instruyó a los revisores para que buscaran y categorizaran cualquier respuesta inapropiada, incluidas las pistas que podrían «filtrar» información diagnóstica, los hallazgos de las pruebas no ordenadas, las interpretaciones clínicas más allá de los resultados objetivos de las pruebas y los resultados patognomónicos ofrecidos prematuramente. Los revisores señalaron solo ocho respuestas como potencialmente problemáticas, y no se consideró que ninguna hubiera filtrado el diagnóstico después de la adjudicación del grupo. Juzgar los diagnósticos en función de la verdad fundamental. Dos médicos pueden describir razonablemente la misma afección utilizando una terminología diferente, por ejemplo, «endocarditis bacteriana» frente a «endocarditis infecciosa debida a Staphylococcus aureus», pero llegar a decisiones de tratamiento idénticas. Para tener en cuenta dicha variabilidad, introdujimos un agente Judge para evaluar los diagnósticos basados en la sustancia clínica en lugar de en las descripciones de la forma superficial. El Judge se implementó utilizando el modelo o3 con una rúbrica detallada escrita por médicos (Tabla 1) diseñada para reflejar el consenso clínico, similar en espíritu a Arora et al. (2025). La rúbrica evalúa las dimensiones clave de la calidad diagnóstica, incluida la entidad central de la enfermedad, la etiología, el sitio anatómico, la especificidad y la integridad general, con un énfasis particular en si el diagnóstico candidato alteraría significativamente el manejo clínico. Para garantizar la comprensión contextual, el juez tuvo pleno acceso a cada expediente del caso durante la adjudicación.
Establecimos un punto de corte de ≥ 4 en una escala Likert de cinco puntos para que contara como un diagnóstico «correcto», basándonos en el fundamento clínico de que el tratamiento clínico se mantendría prácticamente sin cambios por encima de este umbral.
Para validar el Juez, los médicos internos calificaron de forma independiente los 56 diagnósticos del conjunto de pruebas producidos por nuestro Agente de Diagnóstico más preciso (consulte la siguiente sección), así como 56 diagnósticos generados por humanos seleccionados al azar (uno para cada caso). Después de binarizar las puntuaciones del médico y del juez, encontramos que la concordancia entre evaluadores era fuerte: κ de Cohen = 0,70 para el conjunto MAI-Dx y κ = 0,87 para el conjunto humano.
En cuatro de los cinco casos (totales) de desacuerdo, los médicos juzgaron que el juez automatizado era demasiado estricto, marcando los diagnósticos correctos como incorrectos.

Estimación de costos. El uso del costo monetario como una métrica de evaluación secundaria ayuda a disuadir comportamientos diagnósticos poco realistas, como el pedido indiscriminado de imágenes o biopsias. En la práctica clínica diaria, el rendimiento diagnóstico potencial de cada investigación debe sopesarse con restricciones prácticas como los costos monetarios, la invasividad, el tiempo para obtener resultados y las limitaciones del seguro. Dado que el costo monetario a menudo refleja estas limitaciones del mundo real, sirve como un indicador útil de estos factores multifacéticos.
Tratamos las preguntas secuenciales de cara al paciente y los hallazgos del examen físico como parte de una visita médica estándar, asignando un costo fijo de $300 por visita.
Los costos de las pruebas diagnósticas se determinaron utilizando un sistema de búsqueda basado en modelos de lenguaje diseñado para traducir las solicitudes de pruebas diagnósticas, proporcionadas en formato de texto libre, a códigos estandarizados de terminología procesal actual (CPT). Para investigaciones diagnósticas más complejas, el sistema pudo asignar múltiples códigos CPT. Luego, estos códigos CPT se compararon con los datos de costos correspondientes derivados de una tabla de precios de 2023 publicada por un gran sistema de salud de EE. UU., obtenida bajo la regla de transparencia de precios del CMS HHS (45 CFR §180). Nuestro sistema fue capaz de hacer coincidir las pruebas solicitadas con los códigos CPT relevantes más del 98% de las veces; en el resto de los casos extremos, se utilizó 6 Score Label Definition / Anchor 5 Perfect / Clinically superior Clinically identical to the reference o una versión estrictamente más específica. Cualquier detalle añadido debe estar directamente relacionado (complicación, infiltración de órganos, secuelas). No hay adiciones no relacionadas o incorrectas.
4 mayormente correcta (incompletitud menor) Enfermedad central identificada correctamente, pero falta un calificador o componente secundario o está ligeramente mal especificado. La gestión general se mantendría prácticamente sin cambios.
3 parcialmente correcto (error mayor) Categoría general de enfermedad correcta, pero un error importante en la etiología, el sitio o la especificidad crítica o la inclusión de un diagnóstico no relacionado junto con uno correcto. Alteraría el estudio o el pronóstico.
2 mayoritariamente incorrecto Comparte solo rasgos superficiales (p. ej., manifestación sin etiología, enfermedad diferente en la misma categoría). Fundamentalmente desvía el estudio clínico o contradice parcialmente los detalles del caso.
1 completamente incorrecto No hay superposición significativa; órgano/sistema equivocado; adiciones sin sentido o contradictorias. Es probable que seguir este diagnóstico conduzca a una atención dañina.
Tabla 1: Rúbrica Likert de cinco puntos utilizada por el agente Juez. Cada puntuación se asigna después de comparar el diagnóstico candidato con el diagnóstico de referencia a través de
(1) la entidad de la enfermedad central,
(2) la etiología/causa,
(3) el sitio anatómico,
(4) la especificidad/calificadores y
(5) la integridad.
Los sinónimos médicos aceptados (por ejemplo, «linfoma de Hodgkin» frente a «enfermedad de Hodgkin») se consideran equivalentes. Un modelo de lenguaje para estimar un precio. Aunque las estimaciones de costos resultantes no pretenden ser representaciones exactas de los gastos clínicos reales, ofrecen un enfoque estandarizado y consistente para evaluar comparativamente los costos entre diferentes agentes de diagnóstico y médicos. 3 Configuración experimental Evaluamos tanto a los médicos como a los agentes de diagnóstico en los 304 casos de NEJM Case Challenge en SDBench, que abarcan publicaciones de 2017 a 2025. Los 56 casos más recientes (de 2024 a 2025) se presentaron como un conjunto de pruebas ocultas para evaluar el rendimiento de la generalización. Estos casos permanecieron ocultos durante el desarrollo. Seleccionamos los casos más recientes en parte para evaluar la posible memorización, ya que muchos se publicaron después de las fechas de corte de entrenamiento de los modelos lingüísticos evaluados. Como se describe en la sección 2, cada caso comienza con una breve viñeta clínica (generalmente 2 o 3 oraciones, como en la Figura 3) que resume la queja principal del paciente. A partir de este punto de partida, los agentes de diagnóstico interactúan con el Gatekeeper en una secuencia de turnos hasta que llegan a un diagnóstico. En cada turno, el agente puede: (i) preguntar sobre el historial del paciente o los hallazgos del examen físico, (ii) ordenar una prueba diagnóstica o (iii) comprometerse con un diagnóstico final.
El protocolo de evaluación refleja las limitaciones clínicas reales: los agentes deben especificar las pruebas explícitamente (por ejemplo, «CBC» en lugar de «análisis de sangre») e incurrir en costos acumulativos por cada prueba solicitada. Como se señaló anteriormente, el Gatekeeper sintetizó resultados plausibles cuando las pruebas solicitadas no se mencionaron en el caso original para evitar la fuga de información y mantener el realismo clínico. Nuestra métrica principal fue la precisión diagnóstica, definida como el porcentaje de casos que recibieron una puntuación de ≥ 4 en la rúbrica de precisión clínica de 5 puntos, correspondiente a los diagnósticos que conducirían a un tratamiento adecuado. Utilizamos el costo como métrica secundaria, calculado como el costo (en USD) de todas las pruebas diagnósticas solicitadas antes de llegar a un diagnóstico, más un costo fijo por visita al médico ($300). Múltiples preguntas secuenciales constituyeron una visita al médico, que concluyó con una solicitud de prueba diagnóstica. 3.1 Modelos listos para usar También evaluamos un conjunto completo de modelos de lenguaje de última generación que abarcan múltiples familias y tamaños de modelos, de una variedad de proveedores de modelos. Los modelos de Foundation probados incluyen: GPT-3.5-turbo, GPT-4o, GPT-4.1, GPT-4.1-mini, GPT-4.1-nano, o3, o4-mini, Claude 4 Sonnet, Claude 4 Opus, Gemini 2.5 Pro, Gemini 2.5 Flash, Grok-3, Grok-3-mini, Llama 4 Maverick y Deepseek-R1. Para las evaluaciones de referencia, empleamos un aviso mínimo diseñado para probar las capacidades de diagnóstico «listas para usar». El mensaje de referencia (Figura 4) indicó a los modelos que usaran etiquetas XML simples para solicitar pruebas () y hacer preguntas (), con una etiqueta final para enviar su respuesta. Este formato sencillo proporcionó una base para una comparación justa entre las familias de modelos.

Con el aporte de los médicos, desarrollamos un sistema que emula un panel virtual de médicos que trabajan en colaboración para resolver casos de diagnóstico (MAI-DxO). Como se muestra en la Figura 5, un único modelo de lenguaje interpreta cinco roles médicos distintos, cada uno de los cuales aporta experiencia especializada al proceso de diagnóstico. Este enfoque orquestado tiene como objetivo replicar los beneficios del razonamiento clínico basado en equipos y, al mismo tiempo, mitigar los sesgos cognitivos individuales y minimizar el costo/invasividad. 10 El panel virtual consta de cinco roles especializados: • Dr. Hipótesis: mantiene un diagnóstico diferencial clasificado por probabilidad con las tres condiciones más probables, actualizando las probabilidades de manera bayesiana después de cada nuevo hallazgo. • Dr. Test-Chooser: selecciona hasta tres pruebas diagnósticas por ronda que discriminan al máximo entre las hipótesis principales • Dr. Challenger: actúa como abogado del diablo al identificar posibles sesgos de anclaje, resaltar la evidencia contradictoria y proponer pruebas que podrían falsificar el diagnóstico principal actual.
• Dr. Stewardship: hace cumplir la atención consciente de los costos al abogar por alternativas más baratas cuando son diagnósticamente equivalentes y vetar las pruebas costosas de bajo rendimiento.
• Lista de verificación del Dr.: realiza un control de calidad silencioso para garantizar que el modelo genere nombres de prueba válidos y mantenga la coherencia interna en todo el razonamiento del panel. Después de una deliberación interna, el panel llega a un consenso sobre una de tres acciones: hacer preguntas, ordenar pruebas o comprometerse con un diagnóstico (si la certeza supera el umbral). Antes de que se ordenen las pruebas, se puede invocar un rastreador de presupuesto opcional para estimar tanto los costos médicos acumulados hasta el momento como el costo de cada prueba en el pedido. Evaluamos cinco variantes de MAI-DxO para explorar diferentes puntos en la frontera de precisión-costo (desde el más consciente del costo hasta el menos importante):
• Respuesta instantánea: diagnóstico basado únicamente en la viñeta inicial (como en la Figura 3), sin preguntas o pruebas de seguimiento.
• Solo pregunta: el panel puede hacer preguntas, pero no puede ordenar pruebas de diagnóstico. El costo es simplemente el costo de una sola visita al médico.
• Presupuestado: el panel se amplía con un sistema de presupuestación que realiza un seguimiento de los costos acumulativos (una llamada al modelo de lenguaje orquestado por separado) hacia un presupuesto máximo y permite que el panel cancele las pruebas después de ver su costo estimado.
• Sin presupuesto: panel completo sin seguimiento explícito de costos ni limitaciones presupuestarias.
• Conjunto: simula varios paneles de médicos trabajando en paralelo, con un panel adicional para proporcionar un diagnóstico final. Esto se implementa como varias ejecuciones independientes sin presupuesto con un paso de agregación final para seleccionar el mejor diagnóstico. Los costos se calculan como la suma de los costos de todas las pruebas ordenadas por cada una de las ejecuciones, teniendo en cuenta los duplicados. MAI-DxO se desarrolló y optimizó principalmente con GPT-4.1, pero está diseñado para ser independiente del modelo. Todas las variantes de MAI-DxO usaban la misma estructura de orquestación subyacente, con capacidades habilitadas o deshabilitadas selectivamente para las variantes.
3.3 Médicos Para evaluar el rendimiento relativo de los agentes de IA y los médicos en ejercicio, desarrollamos una interfaz de usuario de chat de texto sincrónica que permite a un usuario humano asumir el papel del agente de diagnóstico y conversar con el modelo Gatekeeper para hacer preguntas, solicitar pruebas de diagnóstico y, en última instancia, proporcionar un diagnóstico diferencial (Figura 6). Por lo tanto, los médicos humanos participaron en SDBench de la misma manera que un agente de diagnóstico de IA. 11 Figura 6: Interfaz desarrollada para que los médicos intenten casos de SDBench. Para establecer el rendimiento humano, reclutamos a 21 médicos que ejercían en los EE. UU. o el Reino Unido para que actuaran como agentes de diagnóstico. Los participantes tenían una mediana de 12 años [IQR 6-24 años] de experiencia: 17 eran médicos de atención primaria y cuatro eran generalistas hospitalarios. Cada médico recibió la misma viñeta inicial que los agentes de IA e interactuó con una interfaz Gatekeeper idéntica. No se impusieron límites en la duración de las sesiones ni en el número de pruebas solicitadas. Los casos se extrajeron del conjunto de pruebas ocultas y el orden de los casos se aleatorizó para cada participante para mitigar los efectos del ordenamiento. Se instruyó explícitamente a los médicos que no utilizaran recursos externos, incluidos los motores de búsqueda (por ejemplo, Google, Bing), los modelos de lenguaje (por ejemplo, ChatGPT, Gemini, Copilot, etc.) u otras fuentes de información médica en línea. Se les cegó la exactitud de su diagnóstico y se les pidió que completaran tantos como fuera posible durante el período de estudio.
4 resultados En la Figura 7 se presenta el rendimiento de todos los agentes diagnósticos en SDBench. Cada punto representa el rendimiento de un agente de IA, con una precisión diagnóstica trazada en función del coste medio acumulado. Los agentes de IA se evalúan en los 304 casos de NEJM (incluidos los 56 casos de conjuntos de pruebas), mientras que el rendimiento del médico se muestra solo para los 56 casos de conjuntos de pruebas que se mantienen. La Figura 9 muestra las fronteras de Pareto correspondientes calculadas en el conjunto de prueba e indica que los agentes de IA tienden a desempeñarse mejor en este subconjunto en comparación con los 304 casos. 12 Figura 7: Frontera de Pareto que muestra la precisión diagnóstica frente al costo monetario acumulado promedio para cada agente. Los modelos listos para usar se evaluaron utilizando una indicación de referencia uniforme (véase la Figura 4). MAI-DxO, construido sobre el modelo o3, logra el dominio de Pareto tanto sobre los modelos estándar como sobre los médicos en ejercicio. Rendimiento del modelo listo para usar. La frontera de Pareto para los modelos listos para usar osciló entre una precisión modesta (30-50%) con pruebas mínimas y una precisión del 70-79% con pruebas extensas (incurriendo en un costo de $ 4,000-7,900). Si bien algunos modelos dominaron a otros (por ejemplo, Gemini-2.5-Pro tuvo mayor precisión que Claude-4 Sonnet y Opus, a menor costo), hubo una correlación entre la precisión diagnóstica y el costo, especialmente para los modelos de razonamiento. El o3 estándar logró la precisión más alta con un 78,6%, pero también incurrió en el costo más alto de $ 7,850 por caja. Esta correlación indica que la recopilación de información sigue siendo crucial para el diagnóstico, incluso para los sistemas de IA más avanzados, y respalda la importancia de la recopilación de información como una capacidad clave a la hora de evaluar modelos como agentes de diagnóstico. Además, sugiere que los modelos de razonamiento más capaces son más hábiles para evaluar la complejidad de los casos, generar un conjunto más amplio de diagnósticos diferenciales y ordenar más pruebas para confirmar o excluir opciones. Mientras tanto, los modelos más débiles lograron una falsa economía al considerar menos diagnósticos diferenciales posibles, por lo que nunca ordenaron las pruebas que los confirmarían o excluirían. Desempeño del médico. Cada médico completó un promedio de 36 casos, proporcionando un total de 764 diagnósticos humanos sobre los 56 casos en el conjunto de pruebas. En promedio, los médicos dedicaron 11.8 minutos por caso, solicitando 6.6 preguntas y 7.2 pruebas, lo que resultó en un costo promedio de $2,963. Su precisión diagnóstica 13 promedio fue del 19,9%. Al igual que con los modelos lingüísticos, observamos una correlación entre la precisión diagnóstica y el coste incurrido, aunque la varianza para los médicos es mayor. Incluso el médico que se desempeñó con la mayor precisión diagnóstica (41%) fue superado por GPT-4o tanto en precisión como en costo. Observamos una vez más que los casos de NEJM se seleccionan por su dificultad y potencial instruccional, por lo que no es sorprendente que los médicos los encontraran difíciles.
Rendimiento de MAI-Diagnostic Orchestrator. La curva azul de la Figura 7 representa los diferentes modos operativos de MAI-DxO, lo que permite una navegación precisa de la compensación entre precisión y costo. MAI-DxO, establece una nueva frontera de Pareto que supera a los modelos y médicos listos para usar en todos los costos o niveles de precisión. En la Figura 7 utilizamos o3 como modelo para cada configuración de MAI-DxO, ya que los costes de inferencia del modelo (≈0,15 dólares por caso) son insignificantes en comparación con los costes de las pruebas diagnósticas, lo que hace que la optimización informática sea en gran medida irrelevante en el contexto de los costes de diagnóstico clínico. La configuración estándar MAI-DxO (sin presupuesto) demostró una eficacia particular. Cuando se aplicó al O3, logró una precisión del 81,9% (frente al O3 estándar del 78,6%) al tiempo que redujo los costos promedio de las pruebas a $ 4,735 (desde $ 7,850). Esta mejora simultánea en ambas métricas ilustra que el razonamiento estructurado mitiga la disyuntiva entre precisión y costo presente en los modelos y médicos listos para usar. Como se esperaba, la adición de restricciones presupuestarias redujo significativamente los costos, con una pérdida progresivamente mayor de precisión a medida que se reducía el presupuesto. En particular, una configuración alcanza una precisión del 79,9% a un bajo coste de 2.396 dólares. En el otro extremo del espectro, pudimos mejorar la precisión hasta el 85,5% con técnicas de ensamblaje, manteniendo los costes en 7.184 dólares (frente a los 7.850 dólares de o3). Inspeccionamos manualmente una variedad de casos en los que MAI-DxO (sin presupuesto) no estaba de acuerdo con el o3 estándar con el mensaje de referencia. En estos casos, MAI-DxO a menudo buscaba pruebas que lo desconfirmaran y cambiaba su camino diagnóstico (como resultado del seguimiento explícito de la hipótesis del Dr. Hypothesis y el papel adverso del Dr. Challenger), mientras que el o3 estándar parecía anclarse en las impresiones iniciales. Además, la línea de base parecía carecer de una teoría del valor de la información, ordenando pruebas que fueran «razonables» dado el diferencial actual, en lugar de lo que redujera al máximo la incertidumbre diagnóstica por dólar gastado. El Dr. Stewardship de MAI-DxO no rechazó de plano las pruebas costosas, pero obligó al panel a preguntar si se podía obtener la misma información a un costo menor (en particular, haciendo preguntas al paciente). Como ejemplo, un caso particular fue el de un paciente hospitalizado por abstinencia de alcohol que ingirió desinfectante para manos, lo que provocó una intoxicación. El O3 estándar se obsesionó con la toxicidad de los antibióticos, ordenando imágenes costosas (incluidas una resonancia magnética cerebral y un electroencefalograma) y finalmente produjo un diagnóstico incorrecto a un alto costo de $ 3,431.

En contraste, el Dr. Hypothesis señaló la necesidad de considerar las exposiciones a toxinas en el hospital dado el momento en la primera ronda, y el panel preguntó sobre la ingestión de desinfectante para manos antes de ordenar pruebas. Esta pregunta directa provocó la confesión del paciente, lo que llevó a pruebas confirmatorias específicas (panel de alcohol tóxico que mostraba acetona elevada) y un diagnóstico correcto a un costo total de solo $ 795. 14 figura 8: Mejoras de precisión proporcionadas por MAI-DxO (sin restricciones presupuestarias) en diferentes modelos de lenguaje grandes. Los asteriscos indican significación estadística. MAI-DxO ha mejorado todos los modelos disponibles en el mercado. Aunque MAI-DxO se desarrolló principalmente utilizando GPT-4.1, su enfoque de razonamiento estructurado resultó ser notablemente independiente del modelo. La Figura 8 demuestra que MAI-DxO mejora consistentemente la precisión diagnóstica en todos los modelos de base suficientemente capaces, con ganancias particularmente pronunciadas para las líneas de base más débiles, lo que sugiere que el marco ayuda a los modelos más débiles a superar sus limitaciones a través del razonamiento estructurado. Calculamos la significación estadística de todas las ganancias de precisión en la Figura 8 utilizando una prueba de permutación pareada unilateral con 10000 remuestreos.

Las ganancias para MAI-DxO (sin presupuesto) fueron estadísticamente significativas para todos los modelos (p < 0,005), excepto para o3 y o4-mini, que tuvieron reducciones de costos muy significativas con respecto a la línea de base (p < 0,005). También se observaron aumentos significativos de precisión para o3 con MAI-DxO (conjunto) (p < 0,005). Es probable que esta convergencia refleje cómo MAI-DxO compensa diferentes tipos de debilidades del modelo. Para los modelos menos capaces, el mantenimiento explícito de un diagnóstico diferencial y la selección sistemática de pruebas proporcionan un andamiaje para el razonamiento médico con el que luchan por sí mismos. El panel médico virtual evita errores comunes como el cierre prematuro o el paso por alto de enfermedades raras. Para modelos más capaces, MAI-DxO parece imponer una disciplina útil, asegurando diferenciales integrales, reduciendo el sesgo de anclaje y fomentando las pruebas conscientes de los costos. Bajo una indicación simple de línea de base, planteamos la hipótesis de que los modelos pueden basarse en conjuntos de sesgos inductivos introducidos durante el post-entrenamiento para prepararlos para usos generales. La aplicación de MAI-DxO puede ayudar a anular o reorientar estos sesgos inductivos. Curiosamente, descubrimos que las ganancias brutas de precisión diagnóstica fueron más modestas para los modelos de razonamiento de OpenAI, probablemente porque su rendimiento de referencia ya es alto. Sin embargo, MAI-DxO fue capaz de mejorar significativamente su rentabilidad, como se ilustra en el rendimiento de o3 en la Figura 7.

Los resultados fueron sólidos en todas las divisiones de conjuntos de datos. Como se señaló anteriormente, los 56 casos de CPC más recientes, publicados entre 2024 y 2025, se mantuvieron completamente ocultos para el equipo de desarrollo como un «conjunto de prueba», y no se ejecutaron variantes en ellos hasta que se finalizaron las metodologías. La partición de datos de esta manera es una práctica común para medir y evitar el sobreajuste, en la que un sistema no logra generalizar más allá de los datos utilizados durante su entrenamiento o validación. Un rendimiento sólido en un conjunto de pruebas realmente resistente aumenta la confianza en la capacidad del sistema para generalizar. Si bien MAI-DxO no actualiza los pesos del modelo (confiando en cambio en la solicitud y la orquestación), aún es posible que las opciones de diseño del sistema se sobreajusten inadvertidamente a los casos empleados durante su validación. Esta división de prueba de entrenamiento en particular también verifica la memorización potencial. Si bien los casos de NEJM están ocultos detrás de un muro de pago, aún es posible que algunos modelos listos para usar hayan sido entrenados con ellos de alguna manera. Sin embargo, la mayoría de los casos en el conjunto de pruebas ocurrieron después del corte de datos de entrenamiento de los modelos sobre los que informamos. En la Figura 9, informamos de curvas de frontera de Pareto estratificadas del rendimiento del modelo en los conjuntos de validación (248 casos) y prueba (56 casos). El sistema MAI-DxO exhibió un rendimiento absoluto comparable en el equipo de prueba, con las mejoras relativas con respecto a los modelos estándar conservadas tanto en la precisión del diagnóstico como en la rentabilidad. Estos resultados sugieren que las ganancias de rendimiento son sólidas y no están impulsadas por los efectos de la memorización.
5 Discusión
Presentamos SDBench, un punto de referencia que transforma 304 casos de CPC del New England Journal of Medicine en desafíos de diagnóstico interactivos y de múltiples turnos. A diferencia de los puntos de referencia médicos estáticos que presentan toda la información por adelantado, SDBench refleja más de cerca la práctica clínica del mundo real: los diagnosticadores comienzan con información mínima y deben decidir activamente qué preguntas hacer, qué pruebas solicitar y cuándo emitir un diagnóstico final, y cada decisión incurre en costos realistas. A través de una ingeniería cuidadosa, que incluye un Gatekeeper que puede sintetizar resultados plausibles para pruebas no descritas en los casos originales y un Juez clínicamente validado para evaluar la precisión del diagnóstico, introducimos un entorno de evaluación sólido para el razonamiento clínico secuencial. En este marco, presentamos MAI-DxO, un sistema que simula paneles de diferentes personas clínicas para decidir qué preguntas o pruebas solicitar. MAI-DxO mejoró significativamente la precisión diagnóstica más allá de los modelos sólidos listos para usar, al tiempo que redujo los costos acumulativos de las pruebas en SDBench, estableciendo así una nueva frontera de Pareto entre la precisión y el costo médico.
5.1 Explicación del desempeño sobrehumano
Cuando los médicos comienzan sus carreras, se enfrentan a una decisión clave: ¿deben convertirse en generalistas, con amplios conocimientos en muchas áreas médicas, o especialistas, con una profunda experiencia en un campo limitado? Esta división es necesaria porque la medicina es demasiado vasta para que una sola persona la domine en su totalidad. Para gestionar esta complejidad, los sistemas sanitarios se basan en la colaboración: generalistas y especialistas trabajan juntos en clínicas y hospitales, combinando sus diversos y complementarios conocimientos y habilidades de toma de decisiones para proporcionar a los pacientes la atención integral y eficaz que necesitan. Hoy en día, los modelos de lenguaje de IA de frontera están desafiando esta estructura tradicional. Estos sistemas avanzados muestran una versatilidad notable, demostrando tanto una comprensión médica amplia y profunda, como la capacidad polímata para razonar a través de las especialidades. En efecto, combinan el rango del generalista con la profundidad de los especialistas. Como resultado, superan significativamente a los médicos individuales en problemas de diagnóstico complejos, como los que se presentan en los casos de CPC de NEJM. Nuestros hallazgos ponen de manifiesto esta impresionante capacidad. Esperar que un solo médico domine toda la gama de estos casos no es realista. Consideremos, por ejemplo, un caso complejo de cáncer no diagnosticado. La función de un médico de atención primaria es generar hipótesis iniciales y derivar al paciente al especialista en oncología adecuado para un diagnóstico adicional. Luego, el especialista supervisa las pruebas diagnósticas avanzadas para llegar a un diagnóstico concluyente, pasos que el generalista normalmente no lograría.
Esto plantea una pregunta intrigante: al evaluar los sistemas de IA de frontera, ¿deberíamos evaluar los sistemas de IA de frontera comparándolos con médicos individuales o con equipos completos de generalistas y especialistas similares a los de un hospital? La respuesta a esta pregunta ayudará a definir y dar forma al futuro papel de la IA en la atención sanitaria.
5.2 Trabajo relacionado
La resolución de problemas médicos ha sido un campo de estudio de larga data dentro de la comunidad médica. En la literatura médica de IA, el diagnóstico secuencial se formalizó hace varias décadas a través de modelos normativos basados en la probabilidad bayesiana y la teoría de la decisión (Horvitz et al., 1988). Este marco permitió sistemas de diagnóstico secuencial de nivel experto en dominios como la nefrología (Gorry y Barnett, 1968), la patología (Heckerman et al., 1992; Horvitz et al., 1984) y la atención traumatológica (Horvitz y Seiver, 17, 1997). Sin embargo, la adopción generalizada se vio obstaculizada por los desafíos prácticos de la ingeniería de estos sistemas, en particular los cuellos de botella en torno a la necesidad de adquirir datos detallados y seleccionados por expertos sobre las relaciones probabilísticas entre los hallazgos y las enfermedades. El trabajo más reciente se ha desplazado hacia la aplicación de los LM a los problemas de desafío médico, que suelen incluir el razonamiento clínico como parte de un conjunto de evaluaciones más amplio (Bedi et al., 2025a; Brin et al., 2023; Chakraborty et al., 2020; Gilson et al., 2023; Gu et al., 2021; Singhal et al., 2023). Si bien estos estudios demostraron saltos fundamentales en el rendimiento en el momento de su publicación, los puntos de referencia de opción múltiple existentes ahora se han saturado, lo que pone de manifiesto la necesidad de evaluaciones más complejas y realistas, así como de una cuidadosa optimización integral de los agentes en las tareas sanitarias (Bedi et al., 2025b). Con este fin, se han realizado múltiples estudios, en particular la línea de trabajo Articulate Medical Intelligence Explorer (AMIE), que aprovechó el contenido de NEJM como material de origen para desafiar los puntos de referencia. Para las evaluaciones de la capacidad diagnóstica, AMIE también aprovechó los casos de NEJM-CPC; sin embargo, esta línea de trabajo evaluó los modelos en un entorno fijo de estilo «viñeta» en el que la información del caso se resumió en un mensaje compacto y se les pidió a los modelos que hicieran un diagnóstico diferencial de los 10 principales (McDuff et al., 2025). Por el contrario, nuestra diferenciación clave fue transformar la información estática del caso clínico en el desafío de razonamiento probatorio del mundo real caracterizado por el diagnóstico secuencial, que evalúa a los modelos en su capacidad para solicitar información de manera iterativa, a partir de información mínima, de una manera sensible al costo y decidir cuándo se debe hacer un diagnóstico. Cabe destacar que en un artículo paralelo (Tu et al., 2025) también se evaluó la AMIE en dimensiones de calidad conversacional, como la empatía. Si bien estas representan dimensiones críticas de la interacción con médicos y pacientes, elegimos enmarcar la interacción de médicos y agentes con SDBench como una interacción con un «oráculo» sobre el paciente, por lo que nos enfocamos principalmente en medidas de costo y precisión diagnóstica. Observamos que (Li et al., 2024) también pone a prueba los modelos lingüísticos sobre las capacidades de recopilación de información; sin embargo, este trabajo se basa en preguntas mucho más simples, de opción múltiple al estilo USMLE (que tienen unas pocas oraciones; por el contrario, los casos de CPC de NEJM tienen varias páginas). Los autores también se centran exclusivamente en la recopilación de información a través de preguntas de los pacientes; En este trabajo, permitimos la dimensión adicional de solicitar pruebas diagnósticas y medir la rentabilidad. Más recientemente, (Brodeur et al., 2024) utilizaron casos de la Plataforma de Sanadores de NEJM, una plataforma digital diseñada para enseñar y evaluar el razonamiento clínico a través del aprendizaje interactivo basado en casos, además de los casos de NEJM-CPC. En particular, los casos dentro de la plataforma NEJM Healer están diseñados para servir como ayudas educativas para los profesionales de la salud en formación y no plantean el mismo desafío diagnóstico que los casos de NEJM-CPC. Al igual que con McDuff et al. (2025), la información que se presenta de los casos NEJM-CPC se presentó como viñetas fijas a un modelo, que generó un diagnóstico diferencial y la siguiente prueba diagnóstica más adecuada. Del mismo modo, (Schmidgall et al., 2024) aprovecha los NEJM Image Challenges, que son tareas de preguntas y respuestas de imágenes de opción múltiple.
5.3 Limitaciones
Dado que SDBench se construye a partir de casos complejos y pedagógicamente seleccionados de NEJM CPC, la distribución de casos no coincide con la de un escenario de implementación en el mundo real y, de hecho, no hay casos en los que los pacientes estén sanos o tengan síndromes benignos. Por lo tanto, no sabemos si las mejoras en el rendimiento de MAI-DxO en casos difíciles se generalizan a condiciones clínicas comunes y cotidianas, y no pudimos medir las tasas de falsos positivos. Además, un agente de diagnóstico práctico debe incorporar factores de riesgo específicos del paciente y considerar factores adicionales más allá del costo, por ejemplo, la invasividad y el riesgo para los pacientes, la incomodidad del paciente y los tiempos de espera, los retrasos esperados antes de recibir los resultados ante una enfermedad aguda, la disponibilidad de pruebas en la ubicación actual y las limitaciones de autorización y reembolso. 18 Si bien nuestras estimaciones de los costos médicos reflejaron los costos de las pruebas en los Estados Unidos, en realidad los costos varían según la geografía, los sistemas de salud, los pagadores y los proveedores. Además, hay costos más allá de las pruebas en sí, como el tiempo de informe del médico, el mantenimiento del dispositivo, los costos de viaje del paciente para las pruebas, etc. Si bien reconocemos que nuestras estimaciones de costos médicos se ven mejor como aproximaciones de primer orden, son consistentes en todos los agentes y, por lo tanto, ayudan a cuantificar las compensaciones relativas entre la precisión y el uso de recursos. Si bien nuestro informe sobre el desempeño de los médicos es útil para comparar a los humanos con los sistemas de diagnóstico de IA, también pretende ser una aproximación de primer orden. Dada la amplitud de los diagnósticos representados dentro de los CPC de NEJM, optamos por reclutar solo médicos generalistas (médicos de atención primaria y médicos internos), mientras que en realidad estos podrían derivar los casos más complejos a los especialistas. Además, pedimos a los participantes de nuestro estudio que se abstuvieran de utilizar los motores de búsqueda (para evitar que encontraran los casos exactos de NEJM en línea), mientras que en realidad los médicos son libres de utilizar dichas herramientas, incluidas las historias clínicas electrónicas que a menudo contienen pautas de atención, consultar a colegas o libros de texto, o incluso LM listos para usar. Si bien reconocemos estas limitaciones, nuestros resultados indican posibles aumentos de precisión, especialmente cuando se considera a los médicos que trabajan en entornos remotos y de escasos recursos, y también nos dan una imagen de cómo los LM podrían aumentar la experiencia médica para mejorar los resultados de salud incluso en entornos con buenos recursos.
5.4 Implicaciones y trabajo futuro
Nuestros hallazgos demuestran la promesa de los métodos de IA para el diagnóstico secuencial, incluida la capacidad de modelar explícitamente diagnósticos diferenciales de trabajo y razonar sobre el valor informativo y el costo de las pruebas diagnósticas. Si bien estos resultados aún no establecen la eficacia clínica de MAI-DxO en el apoyo a la toma de decisiones en el mundo real, subrayan el creciente potencial de la IA para abordar los desafíos urgentes en la prestación de atención médica. Nuestro diseño de sistema independiente del modelo puede aliviar los riesgos y los desafíos de implementación para los sistemas de salud que buscan adoptar el mejor soporte de diagnóstico basado en modelos de lenguaje en un campo en rápida evolución. Al reducir la dependencia de un solo modelo, evita la necesidad de «perseguir versiones» en cada nueva versión del modelo. En términos de aplicación práctica, el trabajo futuro debería validar MAI-DxO en entornos clínicos cotidianos, donde la prevalencia y las presentaciones de la enfermedad reflejan la práctica rutinaria en lugar de los casos raros y complejos presentados en el corpus CPC del NEJM. Un objetivo inmediato es identificar los entornos en los que MAI-DxO podría abordar las necesidades insatisfechas y ofrecer el mayor valor a los resultados de salud y al beneficio social.
Nuestra hipótesis es que el acceso a capacidades diagnósticas sobrehumanas que requieren una infraestructura mínima de TI para la salud podría mejorar la calidad de la atención a nivel mundial, ayudando a mitigar el costoso impacto de la escasez de personal clínico y la variabilidad en la prestación de atención Mandl (2025); Wennberg y cols.
Especialmente en entornos con recursos limitados, las estrategias costo-efectivas pueden permitir que los sistemas de salud tengan un mayor impacto en vidas por cada dólar gastado, permitiendo que los escasos recursos médicos se reserven para aquellos con las necesidades clínicas más urgentes.
En términos más generales, estos sistemas podrían incluso hacer posibles las herramientas directas al consumidor, como la clasificación basada en teléfonos inteligentes, siempre que se demuestre que se han establecido salvaguardias de seguridad, autorización reglamentaria y privacidad de datos. El progreso hacia un apoyo eficaz a la toma de decisiones clínicas requerirá el desarrollo de corpus de diagnóstico que reflejen los patrones de prevalencia del mundo real. Dichos puntos de referencia ayudarán a sacar a la luz limitaciones y oportunidades de refinamiento que pueden quedar oscurecidas por nuestro énfasis actual en escenarios de diagnóstico especialmente difíciles. En segundo lugar, nuestro marco de hallazgos sintéticos podría respaldar el desarrollo de puntos de referencia médicos interactivos a gran escala más allá de los 304 casos disponibles aquí. Más allá de la evaluación de los sistemas de IA, la metodología que hemos desarrollado podría utilizarse para mejorar la educación y la formación médica, permitiendo a los estudiantes y profesionales practicar el razonamiento diagnóstico en entornos interactivos simulados, potencialmente guiados por el apoyo pedagógico basado en la IA. Por último, la incorporación de modalidades visuales y otras modalidades sensoriales, como las imágenes, podría aumentar aún más la precisión del diagnóstico y, al mismo tiempo, mantener la rentabilidad.19 Disponibilidad de código y datos Estamos en el proceso de someter este trabajo a una revisión externa por pares y estamos trabajando activamente con socios para explorar el potencial de lanzar SDBench como un punto de referencia público.


























