Authors: David J. Hunter, M.B., B.S., and Christopher Holmes, Ph.D.
N Engl J Med 2023;389:1211-1219
La estadística surgió como disciplina independiente a principios del siglo XX. Durante este tiempo, se desarrollaron conceptos fundamentales, incluido el uso de la aleatorización en ensayos clínicos, la prueba de hipótesis, la inferencia basada en la probabilidad, los valores P y el análisis bayesiano y la teoría de la decisión. 1,2 La estadística se convirtió rápidamente en un elemento esencial de las ciencias aplicadas, tanto que en 2000, los editores de la revista citaron “Aplicación de la estadística a la medicina” como uno de los 11 avances más importantes en la ciencia médica durante los últimos 1000 años. 3 La estadística se ocupa del razonamiento con información incompleta y de la interpretación y comunicación rigurosas de los hallazgos científicos a partir de los datos. La estadística incluye la determinación del diseño óptimo de experimentos y la cuantificación precisa de la incertidumbre con respecto a las conclusiones y las declaraciones inferenciales del análisis de datos, expresadas a través del lenguaje de la probabilidad.
En el siglo XXI, la inteligencia artificial (IA) ha surgido como un enfoque valioso en la ciencia de datos y una influencia creciente en la investigación médica, 4-6 con un ritmo acelerado de innovación. Este desarrollo está impulsado, en parte, por la enorme expansión de la potencia informática y la disponibilidad de datos. Sin embargo, las mismas características que hacen de la IA una herramienta adicional tan valiosa para el análisis de datos son las mismas que la hacen vulnerable desde una perspectiva estadística. Esta paradoja es particularmente pertinente para la ciencia médica. Las técnicas que son adecuadas para la publicidad dirigida a votantes y consumidores o que mejoran la predicción del clima pueden no satisfacer las rigurosas demandas de la predicción o el diagnóstico de riesgos en medicina. 7,8 En este artículo de revisión, analizamos los desafíos estadísticos en la aplicación de la IA al análisis de datos biomédicos y el delicado equilibrio que enfrentan los investigadores al desear aprender lo más posible de los datos y al mismo tiempo garantizar que las conclusiones basadas en datos sean precisas, sólidas y reproducibles. Comenzamos destacando una característica distintiva de la IA que la convierte en un enfoque tan poderoso y, al mismo tiempo, la hace vulnerable desde el punto de vista estadístico. Luego exploramos tres desafíos particulares en la interfaz entre la estadística y la IA que son de particular relevancia para los estudios médicos: inferencia poblacional versus predicción, generalización e interpretación de la evidencia, y estabilidad y garantías estadísticas. Nos centramos en cuestiones de análisis de datos e interpretación de los hallazgos. Las limitaciones de espacio impiden una discusión del área importante de la IA y el diseño experimental o una inmersión profunda en el área emergente de la IA generativa y los chatbots médicos; sin embargo, comentamos brevemente sobre esta área emergente.
Aprendizaje de la representación de características
El modelado estadístico tradicional utiliza una cuidadosa selección práctica de mediciones y características de datos para incluir en un análisis (por ejemplo, qué covariables incluir en un modelo de regresión), así como cualquier transformación o estandarización de mediciones. Las técnicas de reducción de datos semiautomatizadas, como los bosques aleatorios y la regresión por pasos con selección hacia adelante o hacia atrás, han ayudado a los estadísticos en esta selección práctica durante décadas. Los supuestos y las características del modelado suelen ser explícitos, y la dimensionalidad del modelo, cuantificada por el número de parámetros, suele conocerse. Aunque este enfoque utiliza el juicio de expertos para proporcionar un análisis manual de alta calidad, tiene dos posibles deficiencias. En primer lugar, no se puede escalar a conjuntos de datos muy grandes (por ejemplo, millones de imágenes). En segundo lugar, se supone que el estadístico conoce o puede buscar el conjunto de características o mediciones más apropiado para incluir en el análisis (
Figura 1A ).Figura 1

Se podría decir que el aspecto más impresionante y distintivo de la IA es su capacidad automatizada para buscar y extraer características arbitrarias, complejas y orientadas a tareas de los datos, lo que se denomina aprendizaje de representación de características. 9-11 Las características se diseñan algorítmicamente a partir de los datos durante una fase de entrenamiento para descubrir transformaciones de datos que sean correctas para la tarea de aprendizaje. La optimalidad se mide por medio de una «función objetivo» que cuantifica qué tan bien el modelo de IA está realizando la tarea en cuestión. Los algoritmos de IA eliminan en gran medida la necesidad de que los analistas especifiquen previamente las características para la predicción o seleccionen manualmente las transformaciones de las variables. Estos atributos son particularmente beneficiosos en dominios de datos grandes y complejos, como el análisis de imágenes, la genómica o el modelado de registros médicos electrónicos. Los modelos de IA pueden buscar entre potencialmente miles de millones de transformaciones de covariables no lineales para reducir una gran cantidad de variables a un conjunto más pequeño de características adaptadas a la tarea. Además, de manera un tanto paradójica, aumentar la complejidad del modelo de IA a través de parámetros adicionales, lo que ocurre en el aprendizaje profundo, solo ayuda al modelo de IA en su búsqueda de conjuntos de características internas más ricos, siempre que los métodos de entrenamiento estén adecuadamente adaptados. 12,13El resultado es que los modelos de IA entrenados pueden diseñar características adaptativas a los datos que están más allá del alcance de las características que los humanos pueden diseñar, lo que lleva a un desempeño impresionante en la tarea. El problema es que tales características pueden ser difíciles de interpretar, son frágiles ante los cambios en los datos y carecen de sentido común en el uso de conocimientos previos y controles cualitativos que los estadísticos aplican para decidir qué conjunto de características utilizar en un modelo. Los modelos de IA a menudo no pueden trazar la línea de evidencia desde los datos hasta las características, lo que dificulta la auditabilidad y la verificación. Por lo tanto, se necesitan mayores controles y contrapesos para garantizar la validez y generalización de los hallazgos científicos habilitados por IA ( Figura 1B ). 14,15La comprobación de los hallazgos respaldados por IA es particularmente importante en el campo emergente de la IA generativa a través del aprendizaje autosupervisado, como los grandes modelos de lenguaje y los chatbots de ciencias médicas que pueden usarse, entre muchas aplicaciones, para la toma de notas médicas en registros médicos electrónicos. 16 El aprendizaje autosupervisado por estos modelos básicos implica grandes cantidades de datos de entrenamiento no documentados y el uso de funciones objetivas amplias para entrenar los modelos con billones de parámetros (al momento de escribir este artículo). Esto contrasta con el aprendizaje «supervisado» con modelos de predicción de IA, como los clasificadores de aprendizaje profundo, en los que los datos de entrenamiento se conocen y se etiquetan de acuerdo con el resultado clínico, y el objetivo del entrenamiento es claro y está dirigido a la tarea de predicción particular en cuestión. Dada la opacidad de los modelos básicos de IA generativa, se necesita precaución adicional para su uso en aplicaciones de salud.
Predicción versus inferencia poblacional
La IA es especialmente adecuada para tareas de predicción a gran escala, y está diseñada en gran medida para ellas. 17 Esto es cierto, en parte, porque en estas tareas el objetivo de entrenamiento del modelo es claro y la métrica de evaluación en términos de precisión predictiva suele estar bien caracterizada. Los modelos y algoritmos adaptativos pueden aprovechar grandes cantidades de datos anotados para descubrir patrones en covariables que se asocian con resultados de interés. Un buen ejemplo es predecir el riesgo de enfermedad. 18 Sin embargo, el objetivo final de la mayoría de los estudios médicos no es predecir explícitamente el riesgo, sino más bien comprender algún mecanismo biológico o causa de enfermedad en la población en general o ayudar en el desarrollo de nuevas terapias. 19,20Existe una brecha de evidencia entre un buen modelo predictivo que opera a nivel individual y la capacidad de hacer afirmaciones inferenciales sobre la población. 21 La estadística se ocupa principalmente de tareas de inferencia poblacional y de la generalización de la evidencia obtenida de un estudio para una comprensión de una hipótesis científica en la población más amplia. La predicción es una tarea importante pero más simple, mientras que la inferencia científica a menudo tiene una mayor influencia en la comprensión mecanicista. Como observó Hipócrates, “es más importante saber qué tipo de persona tiene una enfermedad que saber qué tipo de enfermedad tiene una persona”. Un ejemplo es la reciente pandemia de la enfermedad por coronavirus 2019 (COVID-19). Se han descrito diversas herramientas de predicción para determinar si una persona tiene una infección por el síndrome respiratorio agudo severo por coronavirus 22, pero pasar de la predicción individual a la inferencia sobre la prevalencia de la población y la comprensión de los subgrupos en riesgo en la población es mucho más complicado. 23Un desafío adicional en el uso de herramientas predictivas es que hay muchas maneras de medir e informar la precisión predictiva, por ejemplo, con el uso de medidas como el área bajo la curva característica operativa del receptor, precisión y recuperación, error cuadrático medio, valor predictivo positivo, tasa de clasificación errónea, índice de reclasificación neta y puntuación de probabilidad logarítmica. Elegir una medida que sea apropiada para el contexto es de vital importancia, ya que la precisión en una de estas medidas puede no traducirse en precisión en otra y puede no estar relacionada con una medida clínicamente significativa de rendimiento o seguridad. 24,25 En contraste, los objetivos inferenciales y los estimandos para las estadísticas de población tienden a ser menos ambiguos, y la incertidumbre se caracteriza más claramente mediante el uso de valores P, intervalos de confianza e intervalos creíbles. Dicho esto, los modelos de predicción de IA robustos y precisos indican la existencia de señales repetibles y asociaciones estables en los datos que justifican una mayor investigación. 26 Los procedimientos bayesianos tienen un vínculo inherente entre la predicción y la inferencia a través del uso de modelos probabilísticos conjuntos. 27-29Un área interesante donde los métodos de predicción de IA y la inferencia estadística se encuentran es el aprendizaje automático causal que presta especial atención a las cantidades inferenciales. -32 La adopción de modelos causales estructurales o marcos de resultados potenciales, con herramientas como gráficos acíclicos dirigidos, utiliza el conocimiento del dominio para reducir la probabilidad de que un modelo de IA cometa errores impulsados por los datos, como especificar mal la relación temporal entre la exposición y el resultado, condicionar una variable que es causada tanto por la exposición como por la enfermedad (un «colisionador»), o resaltar una asociación espuria, por ejemplo, un efecto de lote en un estudio de biomarcadores. 33 Los métodos de inferencia causal también se pueden aplicar a la IA para la interpretación de imágenes radiológicas o patológicas 34 y para la toma de decisiones clínicas y el diagnóstico, 35 y pueden facilitar el manejo de factores de confusión de alta dimensión. 36 Aunque los métodos de IA pueden automatizar y ayudar a aplicar métodos de inferencia causal a datos biomédicos, es probable que el juicio humano sea necesario en el futuro previsible, aunque solo sea porque diferentes algoritmos de IA pueden presentarnos diferentes conclusiones. Además, para evitar posibles sesgos que surgen de la verificación, la mediación y la confusión, el análisis causal a partir de datos observacionales requiere suposiciones que están fuera de lo que se puede aprender de los datos.
Generalización e interpretación
Un desafío en la interpretación de los resultados de la IA es que los algoritmos para la representación de características internas están diseñados para adaptar automáticamente su complejidad a la tarea en cuestión, con una flexibilidad casi infinita en algunos enfoques. Esta flexibilidad es una gran fortaleza, pero también requiere cuidado para evitar el sobreajuste a los datos. El uso de la regularización y la optimización estocástica controlada de los parámetros del modelo durante el entrenamiento puede ayudar a prevenir el sobreajuste, pero también significa que los algoritmos de IA tienen nociones mal definidas de grados estadísticos de libertad y el número de parámetros libres. Por lo tanto, no se pueden utilizar garantías estadísticas tradicionales contra el exceso de optimismo, y se deben sustituir técnicas como la validación cruzada y las muestras retenidas para imitar el verdadero rendimiento fuera de la muestra, con la desventaja de que se reduce la cantidad de datos disponibles para el descubrimiento. Con estos factores tomados en conjunto, el riesgo es la sobreinterpretación de la generalización y reproducibilidad de los resultados. Las prácticas a las que los científicos médicos deberían prestar mucha atención al planificar estudios basados en IA incluyen la publicación de todo el código y la presentación de declaraciones claras sobre el ajuste del modelo y los datos reservados utilizados para informar sobre la precisión, a fin de facilitar la evaluación externa de la reproducibilidad de los hallazgos. 15 Un informe reciente de McKinney et al. sobre el uso de IA para predecir el cáncer de mama basándose en mamografías 37 motivó un llamado de Haibe-Kains et al. a una mayor transparencia: “En su estudio, McKinney et al. demostraron el alto potencial de la IA para la detección del cáncer de mama. Sin embargo, la falta de detalles de los métodos y el código del algoritmo socava su valor científico”. 38 El uso de métodos tradicionales de predicción estadística junto con métodos de IA interpretables puede contribuir a una comprensión de la señal de predicción y puede mitigar las asociaciones sin sentido. La presentación clara de los resultados y la disponibilidad del código aumentan el potencial de replicación y refinamiento externos por parte de otros grupos, pero pueden verse limitados por una tendencia a buscar derechos de propiedad intelectual para productos de IA comerciales.Los métodos de IA pueden ser útiles para reducir un conjunto de datos con una gran cantidad de características, como conjuntos de datos «ómicos» (por ejemplo, datos metabolómicos, proteómicos o genómicos), a una cantidad menor de características que luego se pueden probar con el uso de métodos estadísticos convencionales. Los métodos populares de IA, como los bosques aleatorios, XGBoost y los árboles de regresión aditiva bayesianos
39-41 , brindan una clasificación de «relevancia de características» de las covariables, y los métodos estadísticos, como el operador de selección y contracción mínima absoluta
42, utilizan la selección explícita de variables como parte del ajuste del modelo. Aunque muchos procedimientos de IA pueden no distinguir de manera efectiva entre variables altamente correlacionadas, las técnicas de regresión estándar con una cantidad menor de características seleccionadas por IA pueden hacerlo. La reducción de características también ayuda al analista humano a examinar los datos y aplicar restricciones adicionales en un análisis que se basan en el conocimiento previo del sujeto. Por ejemplo, la característica A a menudo se confunde con la característica X, o un período de latencia de varios años entre la exposición a la característica A y el resultado de la enfermedad significa que no se espera ninguna relación en el seguimiento temprano. Algunas similitudes y diferencias entre la IA y las estadísticas convencionales se resumen en
la Tabla 1 .Tabla 1

Los enfoques de IA desafían algunas tendencias recientes en el análisis estadístico convencional de estudios clínicos y epidemiológicos. Los ensayos aleatorizados de fármacos en investigación se han sometido a un alto nivel de rigor, y las preocupaciones sobre la sobreinterpretación de los resultados de los análisis de subgrupos y de puntos finales secundarios han llevado a un enfoque aún más fuerte en la descripción preespecificada de las hipótesis primarias y el control de la tasa de error por familia para limitar los resultados falsos positivos. Los protocolos ahora suelen especificar los estimandos precisos y los métodos de análisis que se utilizarán para obtener valores P para la inferencia y pueden incluir las covariables que se controlarán y las tablas ficticias que se completarán una vez que se completen los datos. Los análisis en estudios observacionales suelen estar preespecificados de manera menos rigurosa, aunque cada vez se espera más que se establezca un plan de análisis estadístico antes del inicio del análisis de datos como material complementario en los informes publicados. 43En cambio, los métodos de IA suelen buscar patrones en los datos que no están preespecificados, lo que constituye una de las fortalezas de dichos métodos (como se ha comentado anteriormente), y por lo tanto aumenta el potencial de resultados falsos positivos a menos que se incorporen procedimientos rigurosos para evaluar la reproducibilidad de los hallazgos. Se han establecido nuevas directrices y recomendaciones de presentación de informes para la IA en la ciencia médica con el fin de garantizar una mayor confianza y generalización de las conclusiones. 44-48 Además, los algoritmos de IA altamente adaptativos heredan todos los sesgos y la falta de representatividad que podrían estar presentes en los datos de entrenamiento, y al utilizar herramientas de predicción de IA de caja negra, puede resultar difícil juzgar si las señales predictivas surgen como resultado de la confusión de sesgos ocultos en los datos. 49-52 Los métodos del campo de la IA explicable (XAI) pueden ayudar a contrarrestar el aprendizaje de la representación de características opacas, 53 pero para las aplicaciones en las que la seguridad es una cuestión crítica, la naturaleza de caja negra de los modelos de IA justifica una consideración y una justificación cuidadosas. 54Obermeyer y sus colegas 55 describen un algoritmo basado en inteligencia artificial que se aplicó a una población de 200 millones de personas en los Estados Unidos cada año para identificar a los pacientes que tenían el mayor riesgo de incurrir en costos sustanciales de atención médica y derivarlos a «programas de gestión de atención de alto riesgo». Su análisis sugirió que el algoritmo discriminaba involuntariamente a los pacientes negros. La razón parece ser que, en todos los niveles de gasto en atención médica y edad, los pacientes negros tienen más afecciones coexistentes que los pacientes blancos, pero pueden acceder a la atención médica con menor frecuencia. Por lo tanto, el algoritmo con una función objetivo que se propuso predecir la utilización de la atención médica sobre la base de los costos anteriores no reconoció las disparidades relacionadas con la raza en las necesidades de atención médica. En el futuro, los algoritmos de IA pueden ser lo suficientemente sofisticados como para evitar este tipo de discriminación, pero este ejemplo ilustra tanto la necesidad de que los expertos humanos en la práctica clínica y la política de atención médica exploren las consecuencias de las aplicaciones de la IA en estos dominios como la necesidad de especificar cuidadosamente las funciones objetivas para el entrenamiento y la evaluación.
Estabilidad y garantías estadísticas
La ciencia médica es un proceso iterativo de observación y refinamiento de hipótesis con ciclos de experimentación, análisis y conjeturas que conducen a nuevos experimentos y, en última instancia, a un nivel de evidencia que refuta las teorías existentes y respalda nuevas terapias, recomendaciones de estilo de vida o ambas. Se utilizan métodos analíticos, incluidos algoritmos estadísticos y de inteligencia artificial tradicionales, para mejorar la eficiencia de este ciclo científico. El contexto y las consecuencias de las decisiones tomadas sobre la base de la evidencia presentada en estudios médicos conllevan importantes implicaciones para la salud de los pacientes.En gran medida, la preocupación por evitar resultados positivos falsos en las estadísticas médicas convencionales se centra en las posibles consecuencias clínicas de dichos resultados. Por ejemplo, los pacientes pueden verse perjudicados por la autorización de un fármaco que no aporta ningún beneficio y puede tener efectos adversos. En los análisis genéticos, concluir erróneamente que un segmento cromosómico o una variante genética está asociado a una enfermedad puede hacer que se desperdicie mucho esfuerzo en el intento de comprender la asociación causal. Por este motivo, el campo ha insistido en puntuaciones LOD (logaritmo de las probabilidades) altas para el ligamiento y valores P muy pequeños para una asociación en estudios de todo el genoma como prueba de que es probable a priori que la asociación represente un resultado positivo verdadero. Por el contrario, si se analizan los datos para decidir si se debe mostrar un anuncio en particular en un navegador, incluso una pequeña mejora en la asignación aleatoria es una mejora, y un error impone una sanción económica sólo al anunciante.Esta diferencia entre el análisis estadístico en medicina y el análisis de IA tiene consecuencias para el potencial de la IA para afectar la ciencia médica, ya que la mayoría de los métodos de IA están diseñados fuera de la medicina y han evolucionado para mejorar el rendimiento en dominios no médicos (por ejemplo, la clasificación de imágenes de números de casas para software de mapeo 56 ). En la ciencia médica, las apuestas son más altas, ya sea porque las conclusiones pueden usarse en la clínica o, como mínimo, los resultados falsos positivos agotarán los recursos científicos y distraerán a los científicos. La confianza en la solidez y estabilidad de los análisis y los informes es vital para que la comunidad de la ciencia médica proceda de manera eficiente y segura. La estabilidad se refiere a la variabilidad de extremo a extremo en el análisis, por parte de personas expertas en el arte del análisis, desde la concepción del proyecto hasta el informe o la implementación del usuario final. Los estudios habilitados por IA están aumentando en complejidad con la integración de múltiples técnicas de datos y la fusión de datos. Por lo tanto, la evaluación de la estabilidad de extremo a extremo del análisis que incluye la ingeniería de datos, así como la elección del modelo, se vuelve vital. 57,58Los métodos que brindan garantías estadísticas para los hallazgos de la IA, como el análisis de subgrupos en ensayos aleatorios 59 o estudios observacionales, 60 pueden resultar útiles. En el área emergente de operaciones de aprendizaje automático, que combina aprendizaje automático, desarrollo de software y operaciones de tecnología de la información, se presta especial atención a la importancia de la ingeniería de datos en el ciclo de desarrollo de la IA 61 y al problema de “basura que entra, basura que sale”, que puede afectar al aprendizaje automático automatizado en ausencia de una intervención humana cuidadosa. Existen muchos ejemplos de análisis de datos en la ciencia médica en los que realizamos un análisis “agnóstico” porque no existe una hipótesis específica o, si existe, es global (por ejemplo, algunas variantes genéticas entre el gran número de sujetos que se están probando están asociadas con la enfermedad de interés). Esto obviamente conduce a un problema de multiplicidad sustancial. La multiplicidad se puede controlar mediante el uso de enfoques estándar como la corrección de Bonferroni o utilizando explícitamente una especificación previa bayesiana sobre hipótesis, pero se están desarrollando nuevos enfoques de IA para procedimientos gráficos para controlar la multiplicidad. 62 Otro enfoque estándar es validar los hallazgos en un conjunto de datos independiente sobre la base de si las predicciones de IA se reproducen. Cuando dicha validación independiente no es posible, debemos recurrir a imitar este enfoque mediante el uso de particiones dentro de la muestra. Dividir los datos en dos conjuntos, uno para el descubrimiento y otro para la validación, puede proporcionar garantías estadísticas sobre los hallazgos del descubrimiento. 63 De manera más general, las divisiones múltiples con el uso de la validación cruzada pueden estimar el riesgo predictivo futuro, 64 aunque la incertidumbre estadística en la estimación del riesgo predictivo es más difícil de evaluar. Las técnicas emergentes en inferencia conforme parecen prometedoras para cuantificar la incertidumbre en entornos de predicción. 65
El sentido estadístico y el arte de la estadística
Gran parte del arte de la estadística aplicada y de las habilidades de un estadístico o epidemiólogo capacitado implican factores que se encuentran fuera de los datos y, por lo tanto, no pueden ser capturados por algoritmos de IA basados en datos únicamente. Estos factores incluyen un diseño cuidadoso de los experimentos, una comprensión de la pregunta de investigación y los objetivos del estudio, y la adaptación de los modelos a la pregunta de investigación en el contexto de una base de conocimiento existente, teniendo en cuenta el sesgo de verificación y selección y una sospecha sana de resultados que parecen demasiado buenos para ser ciertos, seguida de una verificación cuidadosa del modelo. Aplicar estas habilidades a los estudios habilitados por IA a través del desarrollo de «humanos en el circuito» (en el que la IA apoya y asiste al juicio humano experto) mejorará el efecto y la adopción de los métodos de IA y resaltará las brechas metodológicas y teóricas que deben abordarse en beneficio de la ciencia médica. La IA tiene mucho que aportar a la ciencia médica. Los estadísticos deberían adoptar la IA y, en respuesta, el campo de la IA se beneficiará de un mayor pensamiento estadístico.