¿Puede la IA decir “No lo sé”?

Nota del blog: Con la edad que tengo, los años de profesión, de docente, la avidez por la lectura, el disfrute del conocimiento, y de enseñar, de compartir, de aprender en mis clases cuando me hacen una pregunta y no encuentro en «mis archivos la información, digo sin sonrojarme, no lo sé, ni intento ir por una tangente. El no lo sé parte la humildad epistémica. Si en ocasiones efectúo un circunloquio, porque percibo una ventana de oportunidad para expresar algo no tan circunscripto e interesar al auditorio con una respuesta que nos sirva conceptualmente. Pero no tengo vergüenza, decir no sé, porque antes de ponerme frente a los alumnos ese día, lo intenté todo, busque, me buscaron, utilice la tecnología, las principales revistas, los libros, la web, la science, el sistema IA – humano, todo lo que puedo, en un tiempo que no me pagan, en suscripciones, pero si la tiranía de mi conciencia me obliga. Tampoco pensar que soy un oráculo, no. Digo bueno, que le parece si lo estudiamos juntos. Seguro que hay algo publicado. Investiguemos. Estudiemos juntos.

Hoy las clases deben ser una reunión de estudio, de enseñanza donde buscar, de interesar a los alumnos por los temas, de mostrar la aplicación práctica de lo que uno quiere enseñar y actualizar los programas, para que estén preparados para el ecosistema de salud que existe en el actualidad, ese ecosistema complejo, en un entorno bani, Brittle, frágil, anxious, ansioso, no lineal non linear e incomprensible, incomprehensible. Sostengo que la duda es razonable, que hay que ser riguroso, no quedarse con la primer impresión, con ese sesgo, sino pensar y dudar sistemáticamente.

Como intensivista, la duda no me inmoviliza, sino divido el cerebro en sostener, mejorar, diagnosticar y tratar, respuesta y corrección al pie, junto con ese paciente. Mis alumnos, son una pasión, trato de que se conformen en una cohorte, quiero que aprendan del que tienen a su lado, que multipliquen sus dudas y sus inquietudes. Y me exijan. Que no me aburran. que participen y cuestionen. Que tengan avidez, que tomen notas, que busquen. Enseñar es un propósito divertido, desafiante y gratificante. Aunque un poco te vuelve crítico, de quienes gestionan y te parece que tendrían que hacer otra cosa. Desde la academia. De la modelización es más fácil. Agradezco este viaje. Aunque no exista el reconocimiento, para que sirve, si uno tiene la satisfacción correlacionada con lo que se propuso.

Dicho esto, pasemos al artículo.

Autores : Andrea Sikora , Pharm.D., MSCR , Leo A. Celi , MD, MPHhttps://orcid.org/0000-0001-6712-6626y Raja-Elie E. Abdulnour , MD https://orcid.org/0000-0002-8053-014 N Engl J Med 2026 ; 394 : 1873 – 1875 DOI: 10.1056/NEJMp2517624 VOL. 394 NÚM. 19

No me avergonzará decir «No lo sé».— Juramento Hipocrático

A una residente de primer año le preguntan: «¿Qué explica el aumento de creatinina de la paciente?». Hace una pausa. «No lo sé…». El equipo revisa la medicación y los factores de riesgo de la paciente y opta por un plan prudente que incluye la monitorización de los niveles de fármacos y la consulta con el departamento de nefrología. Se presenta el mismo caso a un sistema de inteligencia artificial (IA) clínica. Este sistema recupera artículos relevantes, pero a pesar de la evidencia contradictoria, ofrece una respuesta segura, sin señalar la incertidumbre que implica la aplicación de los estudios seleccionados al paciente en cuestión. Hay pocos escenarios clínicos más problemáticos que un profesional que se equivoca con seguridad. Se espera, con razón, que los médicos revelen sus lagunas de conocimiento o su incapacidad para predecir un resultado. Sin embargo, las herramientas de IA emergentes a menudo no pueden —o no quieren— hacer lo mismo. En un análisis de grandes modelos de lenguaje (LLM) a los que se les presentaron 300 viñetas diseñadas por médicos, cada una con un detalle inventado, los LLM aceptaron y amplificaron la falsedad entre el 50 y el 82 % de las veces. 1 En resumen, la mayoría de los modelos no dijeron: «No lo sé».Los métodos actuales para entrenar sistemas de IA rara vez premian la abstención de responder una pregunta, y las regulaciones generalmente no exigen esta capacidad. Sin embargo, si la IA va a respaldar el razonamiento clínico, los sistemas deberán ser capaces de indicar incertidumbre. Este comportamiento podría enseñarse y evaluarse tanto en humanos como en máquinas.

Los clínicos se enfrentan a múltiples formas de incertidumbre: incertidumbre fáctica (que implica lagunas de conocimiento), incertidumbre diagnóstica (que implica evidencia incompleta), incertidumbre pronóstica (que implica la incapacidad para predecir resultados) e incertidumbre basada en valores (que implica desalineación de objetivos).

El acto de decir «no lo sé» adopta diferentes formas en diversos ámbitos, pero cumple una función común: evitar conclusiones prematuras y permitir un cambio de un estilo de pensamiento intuitivo a uno analítico.² El residente del caso clínico inicial realizó dicho cambio al enfrentarse a múltiples razones plausibles para el aumento del nivel de creatinina (y el sistema debería haber realizado un cambio análogo al enfrentarse a información contradictoria). Durante este cambio, los clínicos participan en varios procesos cognitivos, como la planificación anticipada, el seguimiento y el pensamiento crítico.³ 

El pensamiento crítico es un conjunto de habilidades aprendidas que implican metacognición (autoconciencia y cuestionamiento de supuestos), evaluación de la calidad y aplicabilidad de la evidencia y reconocimiento de sesgos. Conceptos relacionados en la formación de profesionales de la salud incluyen metacognición, autoconciencia y reconocimiento de la incertidumbre. 

3 Estas capacidades proporcionan un baluarte contra los errores cognitivos porque impulsan a los sistemas humano-IA a permanecer abiertos a la posibilidad de no saber. Aunque se han mantenido amplios debates sobre estas competencias clínicas, la expresión de una duda apropiada no se ha incluido como una competencia fundamental en la formación médica ni se ha integrado en el desarrollo de productos de IA. Reconocer y admitir cuándo el grado de duda supera el umbral de un estado de «no lo sé» es el primer paso para poner en práctica el compromiso de «no hacer daño»; superar este umbral indica la necesidad del pensamiento crítico. La capacidad de decir «no lo sé» —especialmente en situaciones de alto riesgo— puede ser la característica más distintiva de un experto. 3 El “No lo sé” del residente reflejaba humildad epistémica, una virtud humana que implica conciencia metacognitiva, un compromiso moral con la veracidad y el reconocimiento de los límites del propio conocimiento. Los sistemas de IA carecen de la arquitectura metacognitiva que permite la humildad epistémica: los modelos de aprendizaje automático (MLA) son predictores del siguiente token. No “saben” lo que no saben; simplemente generan texto estadísticamente probable. Incluso si un MLA se entrenara para producir la respuesta “No lo sé” con mayor frecuencia, esta respuesta no necesariamente se alinearía con las lagunas de conocimiento reales. La herramienta podría decir “No lo sé” con demasiada frecuencia (lo que la vuelve inútil) o pasar por alto lagunas críticas (lo que la hace peligrosa). Incluso los modelos y métodos de IA más avanzados (por ejemplo, la generación aumentada por recuperación, los flujos de trabajo agénticos y el razonamiento de múltiples pasos) presentan esta deficiencia. Si bien es improbable que estas herramientas inventen estudios ficticios, podrían citar un solo artículo sin reconocer la evidencia contradictoria o no indicar cuándo las poblaciones de estudio difieren del paciente en cuestión. Los sistemas de IA que expresan funcionalmente la incertidumbre podrían tener propósitos clínicos análogos a los de la humildad epistémica: prevenir conclusiones prematuras y propiciar una deliberación adecuada.La educación médica basada en competencias (EMBC) implica definir las competencias clínicas que los residentes deben desarrollar y las actividades profesionales confiables (APC), unidades de práctica medibles que reflejan el desarrollo de competencias e indican cuándo se puede confiar en un residente con una autonomía creciente. 

4 Proponemos que la capacidad de decir explícitamente «No lo sé» cuando sea apropiado se implemente como un comportamiento confiable central que un evaluador externo puede observar y documentar tanto para humanos como para máquinas. Esta APC traduce la humildad epistémica de una virtud humana en una competencia clínica asociada con un comportamiento medible: percibir la ambigüedad y articular la incertidumbre para activar el pensamiento crítico. Al igual que otras APC, este comportamiento se puede observar, enseñar mediante modelado y retroalimentación, y evaluar. Para preguntas mal formuladas o con respuestas desconocidas, los clínicos experimentados tienden a preferir abordar la incertidumbre directamente en lugar de proporcionar una respuesta que muestre una falsa confianza. 

3Se puede aplicar un marco similar a la IA. Nosotros y otros investigadores hemos propuesto enfoques de IA-CBME que implican definir competencias, mapear EPAs y establecer hitos para los modelos de IA, confiándoles una autoridad creciente. Sugerimos que los desarrolladores de herramientas de IA implementen un marco CBME que incluya EPAs medibles e hitos de desarrollo para promover y evidenciar la capacidad computacional de la IA para producir el resultado «No lo sé». Los métodos para cuantificar la incertidumbre y fomentar la abstención en los sistemas de IA están cada vez más disponibles, y algunos sistemas pueden enviar resultados que implican incertidumbre a los clínicos para su revisión. No obstante, existen deficiencias en la implementación de la incertidumbre algorítmica en los flujos de trabajo clínicos; persisten interrogantes sobre cuándo las herramientas de IA deben señalar la incertidumbre, cómo debe expresarse y cómo los sistemas de salud deben evaluar la fiabilidad de dicha señalización. Este marco vincularía la decisión de implementar un sistema de IA con la ejecución de un comportamiento medible, con criterios claros para la gestión de la incertidumbre, independientemente del proceso computacional subyacente que la generó. El objetivo de los productos de IA sujetos a dicho marco sería ejecutar comportamientos de incertidumbre que cumplan la misma función clínica que la humildad epistémica.

Para las herramientas clínicas, la gestión de la incertidumbre debe evaluarse y regularse a lo largo del ciclo de vida del producto. Durante el desarrollo, los sistemas de IA deben abstenerse de proporcionar respuestas seguras cuando no tengan fundamento para ello.

El umbral para expresar incertidumbre podría depender del contexto: las decisiones de alto riesgo y las que se toman en entornos con pocos recursos de apoyo exigen un nivel de certeza mayor que otras decisiones.

Los sistemas deben identificar la incertidumbre cuando falta información crítica, la consulta excede el alcance de la herramienta, existe evidencia contradictoria o la confianza es baja; y, en ese caso, deben proporcionar orientación transparente con límites, en lugar de simplemente negarse a responder una pregunta. Durante la validación, las tasas de incertidumbre expresada podrían compararse con las tasas de precisión reales para las decisiones de diagnóstico y tratamiento, incluso en diversos subgrupos de pacientes y entornos.

En el momento de la implementación, los sistemas de salud definirían una vía de escalamiento: quién debe revisar los resultados señalados, con qué rapidez y utilizando qué documentación.Estos sistemas podrían probarse utilizando escenarios en conjuntos de datos de referencia anotados por clínicos en los que la salida más segura es abstenerse de producir una respuesta, pedir información faltante o presentar múltiples posibilidades plausibles.

Los puntos de referencia pueden usarse para evaluar el rendimiento en cualquier tarea de razonamiento, incluida la tarea de distinguir medicamentos de Pokémon: encontramos que los LLM confabularon en el 90% de los casos cuando se introdujo el nombre de un personaje de Pokémon en una lista de medicamentos, proporcionando indicaciones o instrucciones de dosificación para el personaje (ver figura ). 

5 Aunque los profesionales capacitados también pueden no identificar un nombre como el de un personaje de Pokémon, muchos harían una pausa después de leer un nombre de medicamento desconocido y buscarían más información antes de continuar. En este estudio, los errores se redujeron cuando se dieron instrucciones a los LLM sobre cómo responder a la incertidumbre percibida.

Creemos que los sistemas de IA clínica deberían entrenarse para expresar una incertidumbre calibrada que complemente e indique la necesidad de humildad epistémica en los usuarios humanos, y su desempeño en estas áreas debería evaluarse. Los sistemas que no sean capaces de gestionar la incertidumbre seguirán produciendo información engañosa precisamente en los momentos en que los pacientes necesitan que sus médicos se detengan y pidan ayuda. Los sistemas de IA actuales han superado numerosas pruebas de Turing, pero ¿superarán esta prueba moderna de desconocimiento? No lo sabemos.

Publicado por saludbydiaz

Especialista en Medicina Interna-nefrología-terapia intensiva-salud pública. Director de la Carrera Economía y gestión de la salud de ISALUD. Director Médico del Sanatorio Sagrado Corazon Argentina. 2010-hasta la fecha. Titular de gestión estratégica en salud

Deja un comentario