Una revisión sistemática
Deborah Plana, BS1; Dennis L. Shung, MD, PhD2; Alyssa A. Grimshaw, MSLIS3; et al
Plana D, Shung DL, Grimshaw AA, Saraf A, Sung JJY, Kann BH. Randomized Clinical Trials of Machine Learning Interventions in Health Care: A Systematic Review. JAMA Netw Open. 2022;5(9):e2233946. doi:10.1001/jamanetworkopen.2022.33946
Importancia A pesar del potencial del aprendizaje automático para mejorar múltiples aspectos de la atención al paciente, siguen existiendo barreras para la adopción clínica. Los ensayos clínicos aleatorizados (ECA) a menudo son un requisito previo para la adopción clínica a gran escala de una intervención, y quedan preguntas importantes sobre cómo se están incorporando las intervenciones de aprendizaje automático en los ensayos clínicos en la atención médica.
Objetivo Examinar sistemáticamente el diseño, los estándares de informe, el riesgo de sesgo y la inclusión de los ECA para las intervenciones médicas de aprendizaje automático.
Revisión de la evidencia En esta revisión sistemática, se realizaron búsquedas en las bases de datos en línea de la Cochrane Library, Google Scholar, Ovid Embase, Ovid MEDLINE, PubMed, Scopus y Web of Science Core Collection y se realizó una búsqueda de citas para encontrar artículos relevantes publicados desde el inicio de cada base de datos hasta el 15 de octubre de 2021. Se utilizaron términos de búsqueda para el aprendizaje automático, la toma de decisiones clínicas y los ECA. Los criterios de exclusión incluyeron la implementación de un diseño sin ECA, la ausencia de datos originales y la evaluación de intervenciones no clínicas. Los datos se extrajeron de los artículos publicados. Se analizaron las características de los ensayos, incluida la intervención primaria, la demografía, la adherencia a la guía de informe CONSORT-AI y el riesgo Cochrane de sesgo.
La búsqueda en la literatura arrojó 19 737 artículos, de los cuales 41 ECA incluyeron una mediana de 294 participantes (rango, 17-2488 participantes). En 2021 se publicaron un total de 16 ECA (39%), 21 (51%) se realizaron en sitios únicos y 15 (37%) incluyeron endoscopia. Ningún ensayo se adhirió a todos los estándares CONSORT-AI. Las razones comunes para la no adherencia fueron no evaluar los datos de entrada de mala calidad o no disponibles (38 ensayos [93%]), no analizar los errores de rendimiento (38 [93%]) y no incluir una declaración con respecto a la disponibilidad de código o algoritmo (37 [90%]). El riesgo general de sesgo fue alto en 7 ensayos (17%). De los 11 ensayos (27%) que informaron datos de raza y etnia, la mediana de la proporción de participantes de grupos minoritarios subrepresentados fue del 21% (rango, 0%-51%).
Conclusiones y relevancia Esta revisión sistemática encontró que a pesar del gran número de algoritmos médicos basados en el aprendizaje automático en desarrollo, se han realizado pocos ECA para estas tecnologías. Entre los ECA publicados, hubo una alta variabilidad en el cumplimiento de los estándares de informe y el riesgo de sesgo y una falta de participantes de grupos minoritarios subrepresentados. Estos hallazgos merecen atención y deben considerarse en el futuro diseño e informe de ECA.
Introducción
El aprendizaje automático tiene el potencial de mejorar el diagnóstico y el pronóstico de la enfermedad para mejorar la atención clínica. Dada la creciente cantidad de datos digitales generados a partir de la atención médica de rutina, la potencia de procesamiento computacional disponible y los avances de la investigación, como el aprendizaje profundo, ha habido un interés sustancial en la aplicación de técnicas de aprendizaje automático para mejorar la atención al paciente en todas las disciplinas médicas. Se han investigado 1,2 modelos para tareas como la mejora del diagnóstico del cáncer, el triaje en el departamento de emergencias y el apoyo a la toma de decisiones de la unidad de cuidados intensivos. 3-5 Sin embargo, los recientes fracasos en la implementación exitosa de sistemas de aprendizaje automático en entornos clínicos han puesto de relieve las limitaciones de esta tecnología, generando desilusión y desconfianza en su potencial para impactar la medicina. 6,7 Estas fallas en el sistema de aprendizaje automático a menudo son atribuibles a una falta de generalización, una incapacidad para adaptar un sistema entrenado con datos de 1 contexto para funcionar bien en uno nuevo,8 o una incapacidad para demostrar un beneficio clínicamente significativo. 7 Se han propuesto estrategias de mitigación para garantizar su aplicabilidad, como el uso de conjuntos de datos más grandes y diversos y colaboraciones directas con expertos clínicos en el desarrollo de modelos. 9-11 Se investigó un área de estudio diferente y complementaria de los procedimientos de prueba de modelos de aprendizaje automático, los ensayos clínicos aleatorios (ECA), que pueden afectar su uso final en entornos clínicos heterogéneos.
Los ensayos clínicos aleatorizados se consideran el estándar de oro para evaluar el impacto de una intervención en la atención clínica,12 y el panorama actual de los ECA para el aprendizaje automático en la atención médica continúa evolucionando. Los ensayos clínicos aleatorizados, particularmente aquellos con métodos transparentes y reproducibles, son importantes para demostrar la utilidad clínica de las intervenciones de aprendizaje automático dada la opacidad inherente y la naturaleza de caja negra de estos modelos y la dificultad para descifrar la base mecanicista para las predicciones del modelo. 13,14 Además, el rendimiento del modelo de aprendizaje automático en el entorno clínico depende de los datos de entrenamiento que se utilizaron durante el desarrollo del modelo y puede que no se generalice bien a las poblaciones de pacientes que están fuera de la distribución de los datos de entrenamiento. 15 A menudo se pasan por alto factores como la ubicación geográfica16 y las características raciales, étnicas y sexuales de los datos de entrenamiento del modelo; por lo tanto, los ECA que incluyen una variedad de antecedentes demográficos son cruciales para evitar sesgos conocidos que pueden propagarse y profundizarse en función de datos de entrenamiento defectuosos. 17,18
Por lo tanto, se realizó una revisión sistemática para comprender mejor el panorama de los ECA de aprendizaje automático y las cualidades de los ensayos que afectan la reproducibilidad, la inclusión, la generalización y la implementación exitosa de la inteligencia artificial (IA) o las intervenciones de aprendizaje automático en la atención clínica. La revisión se centró en los ensayos que utilizaron la IA o el aprendizaje automático como intervención clínica, y los pacientes se asignaron al azar a un brazo de tratamiento con una intervención terapéutica basada en el aprendizaje automático o a un brazo de atención estándar.
Esta revisión sistemática utilizó las directrices de informe Preferred Reporting Items for Systematic Reviews and Meta-analysis (PRISMA)19 y Synthesis Without Meta-analysis (SWiM)20. El protocolo fue registrado a priori (CRD42021230810).
Estrategia de búsqueda y criterios de selección
Un bibliotecario médico (A.A.G.) realizó una búsqueda sistemática de la literatura en las bases de datos Cochrane Library, Google Scholar, Ovid Embase, Ovid MEDLINE, PubMed, Scopus y Web of Science Core Collection para encontrar artículos relevantes publicados desde el inicio de cada base de datos hasta el 15 de octubre de 2021, y se realizaron búsquedas finales en todas las bases de datos en esta fecha. La búsqueda fue revisada por un segundo bibliotecario médico utilizando la guía de revisión por pares de estrategias de búsqueda electrónica (PRESS). Se realizaron búsquedas en 21 bases de datos mediante una combinación de vocabulario controlado y términos de texto libre para la IA, la toma de decisiones clínicas y los ECA. La búsqueda no estuvo limitada por idioma o año. Los detalles de las estrategias de búsqueda completas se dan en eAppendix 1 en el Suplemento. El paquete citationchaser22 para el software R, versión 4.0.3 (R Foundation for Statistical Computing) se utilizó para buscar en las listas de referencias de los estudios incluidos y para recuperar
rtículos que citaban los estudios incluidos para encontrar estudios relevantes adicionales no recuperados por la búsqueda en la base de datos.
Las citas de todas las bases de datos se importaron a una biblioteca de Endnote 20 (Clarivate Analytics), en la que se eliminaron los duplicados. Los resultados deduplicados se importaron al programa de gestión de revisión sistemática Covidence para la detección y extracción de datos. Dos evaluadores independientes realizaron una revisión de título y resumen, con un tercer evaluador para resolver desacuerdos. Esta fase de detección fue realizada por 5 de nosotros (D.P., D.L.S., A.A.G., A.S. y B.H.K.). Los textos completos de los artículos resultantes fueron revisados de forma independiente para su inclusión por 2 evaluadores (D.P., D.L.S. y A.S.) y un tercer evaluador (B.H.K.) para resolver desacuerdos. Los artículos se incluyeron si se consideraron por consenso como ECA en los que se utilizó IA o aprendizaje automático en al menos 1 brazo de aleatorización en un entorno médico. Las estrategias de búsqueda están disponibles en el eAppendix 1 del Suplemento, y las razones de exclusión se encuentran en la Figura 1.
Análisis estadístico
Dos de nosotros (D.P. y D.L.S.) extrajeron los datos de forma independiente y evaluaron el riesgo de sesgo para cada estudio mediante formularios estandarizados de extracción de datos. Se compararon los formularios completados por cada uno; El desacuerdo se resolvió mediante revisión y discusión, con otro de nosotros (B.H.K.) sirviendo como árbitro final. No se estableció contacto con los autores para obtener datos adicionales no publicados. El riesgo de sesgo se evaluó mediante la herramienta Cochrane Risk of Bias, versión 2 para ECA.23 Esta herramienta se desarrolló para evaluar el riesgo de sesgo en los ECA y tiene 5 dominios, incluido el riesgo de sesgo debido al proceso de asignación al azar, las desviaciones de las intervenciones previstas (efecto de la asignación a la intervención), los datos de resultado faltantes, la medición del resultado, y selección del resultado comunicado.
Para evaluar la reproducibilidad y la transparencia de los informes, evaluamos el cumplimiento de los artículos a la guía de informes Consolidated Standards of Reporting Trials–Artificial Intelligence (CONSORT-AI) recientemente publicada,24 que es una extensión de la directriz CONSORT desarrollada a través de un grupo internacional de múltiples partes interesadas a través de un consenso por etapas. Se recomiendan los ECA basados en aprendizaje automático para informar de forma rutinaria los criterios extendidos además de los elementos principales de CONSORT. Dos de nosotros (D.P. y D.L.S.) extrajimos los datos de forma independiente y evaluamos cada uno de los 11 criterios de extensión de CONSORT-AI para cada artículo. El desacuerdo se resolvió mediante revisión y discusión, con otro de nosotros (B.H.K.) sirviendo como árbitro final.
Para evaluar la inclusión, evaluamos los informes de sexo, raza y etnia. Se calculó la proporción de participantes de grupos minoritarios subrepresentados dentro de cada estudio utilizando la definición de los Institutos Nacionales de Salud de grupos subrepresentados en la investigación biomédica25; la definición designa a los indios americanos o nativos de Alaska, negros o afroamericanos, hispanos o latinos, y nativos hawaianos u otros isleños del Pacífico como grupos minoritarios subrepresentados. Para evaluar otras cualidades relacionadas con la generalización y la adopción clínica, se evaluó el uso de puntos finales clínicos frente a no clínicos, si el ensayo se realizó en un solo sitio o en varios sitios, y la ubicación geográfica. Otras cualidades evaluadas fueron el uso de medidas con vs sin umbrales de rendimiento, el ajuste de la enfermedad del ensayo, el tipo de datos de entrenamiento del modelo y el tipo de modelo de aprendizaje automático. Los datos de todos los ítems antes mencionados fueron extraídos de forma independiente por 2 de nosotros (D.P. y D.L.S.) para cada artículo, con el desacuerdo resuelto por revisión y discusión, con otro de nosotros (B.H.K.) sirviendo como árbitro final. Todas las estadísticas resumidas se calcularon utilizando el software R, versión 4.0.3.
Resultados
La búsqueda dio como resultado 28 159 registros; después de que se eliminaron los duplicados, 19 737 permanecieron para la selección de títulos y resúmenes, y 19 621 de ellos fueron excluidos (Figura 1). No se localizaron artículos adicionales de la búsqueda de citas. Se realizó una revisión de texto completo para 116 artículos; de ellos, 75 estudios se excluyeron porque eran resúmenes de congresos (n = 19), tenían el diseño incorrecto del estudio (n = 16), realizaron la intervención incorrecta (n = 14), contenían datos duplicados del estudio (n = 11), no implicaron la toma de decisiones clínicas (n = 6), no utilizaron IA o aprendizaje automático (n = 3), proporcionaron resultados preliminares solo (n = 2), no se realizaron en un entorno médico (n = 2), no evaluaron ningún resultado que afectara la toma de decisiones clínicas (n = 1) o que no estuviera escrito en inglés (n = 1) (eAppendix 1 y eAppendix 2 en el Suplemento). En general, 41 ECA con una mediana de 294 participantes (rango, 17-2488 participantes) cumplieron los criterios de inclusión. 26-66
Las principales características del estudio se muestran en la Tabla, así como en el Apéndice 3 en el Suplemento. No se realizó ningún metanálisis cuantitativo debido a la heterogeneidad de los resultados informados entre los ensayos clínicos. El número de ECA publicados aumentó sustancialmente durante el período de estudio. De los 41 ECA incluidos26-66, 16 (39%) se publicaron de enero a octubre de 2021, 42,47-51,53-57,59-63 y 36 (88%) de enero de 2019 a octubre de 2021 (Figura 2). 26,27,29,31-35,37-39,41-45,47-66 Los ensayos se realizaron con mayor frecuencia en los Estados Unidos (15 [37%])29-33,36,40,44,46,49 ,55,59,61-63 o China (13 [32%]),27,37-39,43,45,48,52,54,56,60,65,66 y se realizaron 6 estudios (15%) en varios países. 26,29,42,47,50,57 En cuanto a las cualidades asociadas a la generalización, 20 ECA 26,28-30,32-34,39,42,44,47,50 ,51,54,56,57,59,62-64 (49%) se realizaron en varios sitios, y 21 ECA (51%) se realizaron en un solo sitio. 27,31,35-38,40,41,43,45,46,48,49,52,53,55,58,60,61,65,66 Sólo 11 ensayos (27% ) informaron de raza y origen étnico (Figura 2)30-33,36,44,49,55,59,61,63; entre esos ensayos, una mediana del 21% (rango, 0%-51%) de los participantes pertenecían a grupos minoritarios subrepresentados.
Para evaluar la transparencia y la reproducibilidad de los ECA, se evaluó la adherencia de los ensayos a los estándares CONSORT-AI (Figura 3). Se encontró que ningún ECA cumplió todos los criterios. Un total de 13 ECA (32%) cumplieron al menos 8 de los 11 criterios (eAppendix 3 en el Suplemento). 28,29,38,42,45,47,49,51,59,60,62,63,65 Las razones más comunes para la falta de cumplimiento de las directrices fueron no evaluar los datos de entrada de mala calidad o no disponibles (38 ensayos [93%]),26-37 ,39-46,48-50,52-66 no analizar errores de rendimiento (38 [93%]),26-28,30-46,48-61,63-66 y falta de una declaración con respecto a la disponibilidad de código o algoritmo (37 [90%]). 26,27,29-49,51-58,61-66
El riesgo de sesgo para los ECA se resume en la figura 4. El riesgo general de sesgo fue alto en 7 ensayos (17%). 27,36,40,46,48,55,58 El sesgo de la medición de los resultados fue el tipo observado con mayor frecuencia, con al menos cierta preocupación por el sesgo en 19 ensayos (46%). 27,33,38,40-46,48,49,51,55,56,59,63,65,66
En cuanto a los casos de uso clínico en ECA, la especialidad clínica más común representada fue gastroenterología (16 [39%])27,30,34,37,38,43,45,50-52,54,56,60,63,65,66 ; la mayoría de estos ECA incluyeron imágenes endoscópicas. 27,34,37,38,43,45,50-52,54,56,60,63,65,66 La mayoría de los estudios con casos de uso clínico reclutaron pacientes adultos (36 [88%]). 27,29,30,32-38,40-48,50-66 Cuatro ensayos (10%) se realizaron en un entorno de atención primaria, y todos estos ensayos incluyeron datos introducidos por el usuario 33,40,44,57; Otros 4 ensayos (10%) fueron en cardiología o cirugía cardíaca 35,47,48,59 e incluyeron datos electrocardiográficos, de dispositivos portátiles, ecocardiográficos o de forma de onda arterial. Se realizaron dos ensayos (5%) en el ámbito neonatal26,28 que evaluaron las convulsiones y la angustia fisiológica, y 3 estudios (7%) se realizaron principalmente entre las poblaciones pediátricas de manera más amplia31,39,49, que evaluaron el asma, el trastorno del espectro autista y las cataratas infantiles. La mayoría de los ECA incluyeron medidas de resultado clínicas (34 [83%])26,27,29-39,42-46,48-55,57-60,63-66 y medidas de resultado sin umbrales de rendimiento (32 [78%]). 28,31-36,38-40,42,44,46-58,60-66 En cuanto a las fuentes de datos, 15 ensayos (37%) utilizaron principalmente intervenciones endoscópicas basadas en imágenes27,34,37,38,43 ,45,50-52,54,56,60,63,65,66 5 (12%) utilizó datos ingresados por el paciente,33,40,44,55,57 2 (5%) utilizó datos de la historia clínica electrónica primaria ,32,61 2 (5%) utilizaron datos de electrocardiograma,48,59 y 2 (5%) utilizaron datos basados en sangre (glu)cose y niveles de insulina). 29,42 Un total de 20 artículos (49%) utilizaron redes neuronales de aprendizaje profundo. 27,30,34,37,38,43,45,46,48,50-52,54,56,59,60,62,63,65,66
Discusión
Esta revisión sistemática encontró una falta de ECA para las intervenciones de aprendizaje automático médico y destacó la necesidad de ECA adicionales bien diseñados, transparentes e inclusivos para las intervenciones de aprendizaje automático para promover el uso en la clínica. Existe una creciente preocupación de que se estén lanzando nuevos modelos de aprendizaje automático después de estudios de validación preliminares sin seguimiento sobre su capacidad para mostrar formalmente superioridad en un ECA estándar de oro.67,68 Cabe destacar que actualmente hay 343 intervenciones médicas de INTELIGENCIA artificial o aprendizaje automático aprobadas por la Administración de Alimentos y Medicamentos de los Estados Unidos (FDA). 69 El hallazgo de 41 ECA de aprendizaje automático médico sugiere que la mayoría de los dispositivos médicos habilitados para aprendizaje automático aprobados por la FDA están aprobados sin eficacia demostrada en un ECA. Es probable que este hallazgo se explique, en parte, por la menor carga de evidencia requerida para la autorización del algoritmo de inteligencia artificial o aprendizaje automático (a menudo clasificado por la FDA como software como dispositivo médico) en comparación con los medicamentos farmacéuticos. 70 Hasta donde sabemos, esta revisión es el primer intento riguroso de cuantificar esta brecha.
Trabajos previos han demostrado una falta de pruebas prospectivas en este campo, pero no han evaluado rigurosamente la cantidad de ECA utilizando un método registrado por PROSPERO o un arbitraje de desempate71 o han analizado las pruebas de tecnologías solo relacionadas con datos de imágenes. 72 Además, estos estudios no exploraron la adherencia de los estudios a los estándares CONSORT-AI ni evaluaron la inclusión de los grupos minoritarios subrepresentados y las mujeres en las poblaciones de estudio. Finalmente, el alcance de la revisión en comparación con el trabajo anterior difirió; nuestro trabajo se centró específicamente en el uso de la IA clínica o las intervenciones de aprendizaje automático que se utilizaron como brazos de investigación en los ECA. Se excluyeron los ECA que utilizaron modelos estadísticos tradicionales y los ECA en los que la IA o el aprendizaje automático se incluyeron en el protocolo del estudio pero no formaron parte de la intervención aleatorizada. De esta manera, se destacaron los ECA que compararon directamente la IA o el aprendizaje automático con la atención estándar y los ECA que se diseñaron para demostrar un alto nivel de evidencia de utilidad clínica. Una comparación de los ensayos incluidos en este estudio con el trabajo previo está disponible en eAppendix 4 en el Suplemento.
La búsqueda inicial de 28 159 registros y el rendimiento posterior de sólo 41 ECA26-66 indican una brecha traslacional entre el desarrollo y el impacto clínico. La mayoría de los ECA incluidos en esta revisión se realizaron entre enero de 2019 y octubre de 2021 (36 [88%]),26,27,29,31-35,37-39,41-45,47-66 y 16 estudios (39%) se realizaron entre enero y octubre de 2021,42,47-51, 53 –57,59-63, lo que indica que la tasa de nuevos ECA para las intervenciones de aprendizaje automático aumentó con el tiempo. Los casos de uso clínico de estas tecnologías con mayor frecuencia involucraron imágenes endoscópicas en gastroenterología (15 [37%])27,34,37,38,43,45,50-52,54,56,60,63,65,66 e inscribió a pacientes adultos (36 [88%]). 27,29,30,32-38,40-48,50-66
Con respecto al informe de los ensayos, ningún ECA incluido en esta revisión se adhirió a todos los estándares de informe específicos del aprendizaje automático (es decir, la directriz de extensión CONSORT-AI24). Específicamente, 37 ensayos (90%) no compartieron código y datos junto con los resultados del estudio26,27,29-49,51-58,61-66 38 (93%) no analizaron datos de entrada de mala calidad o no disponibles,26-37,39-46,48-50,52-66 y 38 (93%) no evaluaron errores de desempeño26-28,30-46,48-61,63-66, todos los cuales pueden contribuir a problemas de reproducibilidad. Estos resultados sugieren que la calidad del informe de ECA de aprendizaje automático necesita mejoras. La guía CONSORT-AI ayuda a garantizar la transparencia y la reproducibilidad de los métodos de ECA24, y la falta de adherencia a las guías observada entre los ECA en esta revisión puede ser otra barrera para la adopción clínica. Cabe destacar que los estándares CONSORT-AI se publicaron en septiembre de 2020, cuando la mayoría de los ensayos analizados en esta revisión se habrían publicado o se habrían sometido a revisión por pares. Los trabajos futuros deben reevaluar el porcentaje de ECA adherentes a las directrices publicados después de 2021 para evaluar el impacto de la directriz CONSORT-AI en el diseño de los ECA.
Con respecto a la inclusión de los ECA, entre los ensayos seleccionados según los criterios de búsqueda, se encontró que sólo 20 (49%) se realizaron en más de 1 sitio. 26,28-30,32-34,39,42,44,47,50,51,54,56,57,59,62-64 Además, se encontró una falta de informe de información demográfica en todos los estudios, y solo 11 ECA (27%) informaron la raza o el origen étnico de los participantes. 30-33,36,44,49,55,59,61,63 Dentro de este subconjunto, los estudios tuvieron una mediana del 21% de los participantes inscritos pertenecientes a grupos minoritarios subrepresentados, un número concordante o ligeramente superior a las proporciones informadas en revisiones sistemáticas anteriores que analizaron ECA médicos.73 ,74 Los ensayos se realizaron con mayor frecuencia en los Estados Unidos (15 [37%])29-33,36,40,44,46,49,55,59,61-63 o China (13 [32%]),27,37– 39,43,45,48,52,54,56,60,65,66 y sólo 6 estudios (15%) se realizaron en varios países. 26,29,42,47,50,57 En conjunto, esta falta de diversidad en las poblaciones de pacientes involucrados en los ECA indica que se desconoce la generalización de sus resultados en todos los sitios clínicos, una preocupación creciente por la regulación federal de las intervenciones de aprendizaje automático como dispositivos médicos. 75
En cuanto al riesgo de sesgo, se encontró un riesgo alto en 7 ensayos 27,36,40,46,48,55,58 (17%); aunque sustancial, esta proporción fue menor que la proporción de estudios de alto riesgo encontrados en un estudio transversal de intervenciones no relacionadas con el aprendizaje automático76 que encontró que una mediana del 50% de los estudios tenía un alto riesgo de sesgo. Esta diferencia indica que las deficiencias en el diseño, la ejecución y el informe de los ECA no están más extendidas que las de otros ensayos de intervenciones médicas.
Esta revisión sistemática encontró un número bajo pero creciente de ECA de intervenciones de aprendizaje automático en la atención sanitaria. Este bajo número contrasta con el gran número de estudios de validación preliminar de intervenciones médicas de aprendizaje automático y el creciente número de aprobaciones de la FDA en esta área de investigación; muchas de estas tecnologías han alcanzado la fase de implementación clínica sin una evaluación estándar de oro de la eficacia a través de un ECA.69 No es práctico evaluar formalmente cada iteración potencial de una nueva tecnología a través de un ECA (por ejemplo, un algoritmo de aprendizaje automático utilizado en un sistema hospitalario y luego utilizado para el mismo escenario clínico en otra ubicación geográfica). En particular, cuando un algoritmo solo afecta indirectamente la atención al paciente (por ejemplo, estratificación del riesgo, diagnóstico mejorado), los estudios de validación locales e independientes pueden proporcionar un nivel adecuado de evidencia para fomentar la adopción temprana, aunque este es un área de debate continuo. Un ECA basal de la eficacia de una intervención ayudaría a establecer si una nueva herramienta proporciona utilidad y valor clínicos. Esta evaluación inicial podría ir seguida de estudios de validación externa retrospectivos o prospectivos para demostrar cómo la eficacia de una intervención se generaliza con el tiempo y en todos los entornos clínicos.