Inteligencia Artificial en Radiología. Aprendizaje profundo multimodal para integrar radiografías de tórax y parámetros clínicos: un caso para transformadores

La inteligencia artificial en imágenes para incrementar la sensibilidad y especificidad de los equipos de diagnóstico por imágenes, como un complemento, como alertas, como un aprendizaje profundo, con mayor precisión y seguridad, que exigirá apertura, más y más entrenamiento, guardar información, no pensar en una producción industrializada sino cada vez más segura, más ergonómica para los que trabajan, para además hacer diagnósticos rápidos que aumenten las posibilidades de los pacientes. Esto es un área que no tiene límites. Especialmente si nos podemos sacar el miedo que estos algoritmos de inteligencia artificial, aprendizaje profundo reemplazarán a los médicos, la interfaz humana en los momento de verdad será cada vez más indispensable y la inteligencia artificial su cooperación. Este articulo del radiology que relaciona imágenes con datos clínicos, que simulan el pensamiento, el constructo de la información de base para definir la interpretación de la imagen, será muy comentado por eso lo pongo en consideración de los seguidores del blog, porque nos servirá para seguir aprendiendo, por allí pasa la vida profesional, seguir y seguir aprendiendo.


Firas Khader Gustav Müller-Franzes

Se desarrolló una arquitectura de inteligencia artificial basada en transformadores para integrar datos multimodales de pacientes y demostró un mejor rendimiento diagnóstico en dos conjuntos de datos de datos radiográficos de tórax y datos paramétricos clínicos.

Resultados clave

  • ■ Un modelo basado en transformadores entrenado para diagnosticar hasta 25 enfermedades utilizando datos multimodales de dos conjuntos de datos adquiridos retrospectivamente (conjuntos de entrenamiento; n = 33 893, n = 28 809) que comprende radiografías de tórax y parámetros clínicos mostraron un mejor rendimiento diagnóstico.
  • ■ Para el conjunto de datos de Medical Information Mart for Intensive Care (MIMIC) disponible públicamente, el área media bajo la curva característica operativa del receptor fue de 0,77 cuando se utilizaron radiografías de tórax y parámetros clínicos, en comparación con 0,70 (P < 001,0) cuando sólo radiografías de tórax y 72,001 (P < <>,<>) cuando sólo se utilizaron parámetros clínicos.
  • ■ El modelo multimodal proporcionó una red neuronal flexible cuyos resultados son explicables y están bien alineados con la percepción de imágenes radiológicas.

Introducción

En medicina, el diagnóstico de una enfermedad se basa en datos de múltiples fuentes. Un médico basará las decisiones en imágenes radiológicas, datos clínicos, historial del paciente, hallazgos de laboratorio e información de muchas modalidades adicionales. La mente humana es capaz de condensar todas estas entradas en una decisión racional. Durante mucho tiempo se ha propuesto que el aprendizaje profundo tiene la capacidad de ayudar a los médicos en ciertas tareas y ya ha demostrado un rendimiento igual o mejor que los expertos humanos (1). Sin embargo, hay un impedimento crucial que limita la aplicabilidad general de tales modelos: estos modelos están diseñados casi exclusivamente para resolver tareas con un tipo de datos a la vez, ya sea el diagnóstico de patologías en imágenes radiológicas (2,3) o la detección de alteraciones genéticas en imágenes histopatológicas (4).

Sobre la base de esta comprensión, se necesitan modelos que sean capaces de combinar datos de imágenes y no imágenes como entradas para apoyar realmente la toma de decisiones del médico (5). Desafortunadamente, las arquitecturas de aprendizaje profundo prevalecientes del pasado no son adecuadas para tratar grandes cantidades de datos de imágenes y no imágenes; las redes neuronales convolucionales (CNN) hacen uso de sesgos intrínsecos que se basan en las propiedades de la imagen, como las correlaciones entre píxeles vecinos; y la integración de información no relacionada con la imagen no es sencilla (6).

Introducidas originalmente para tareas de lenguaje natural, las arquitecturas de redes neuronales basadas en transformadores han demostrado recientemente ser competitivas con las CNN para el procesamiento de imágenes, mientras que al mismo tiempo son ideales para combinar datos de imágenes y no de imágenes (7). Esta propiedad en gran medida independiente de la entrada se habilita mediante el uso de un mecanismo de atención, que asigna puntuaciones de importancia a diferentes partes de los datos de entrada, independientemente de si estos datos son de naturaleza de imagen o no imagen. Además, la visualización de estas puntuaciones de importancia ofrece información valiosa sobre el proceso de toma de decisiones del modelo de transformador. Por lo tanto, su aplicación en medicina es el siguiente paso lógico (8,9).

Sin embargo, los transformadores tienen una deficiencia notable; es decir, su carga computacional escala cuadráticamente con el número de entradas. Sin remedio, esto limitará el progreso en la investigación médica. Para abordar esto, el objetivo de este estudio fue desarrollar un modelo de transformador específicamente adaptado al contexto médico, por el cual los datos de imágenes y un volumen potencialmente grande de datos no relacionados con imágenes específicos para cada paciente deben procesarse de manera eficiente y explicable. Un objetivo adicional fue evaluar las capacidades diagnósticas del modelo utilizando entradas multimodales de un conjunto de datos públicos y un conjunto de datos internos independientes de pacientes en un entorno de unidad de cuidados intensivos (UCI). La hipótesis era que el rendimiento diagnóstico del modelo de transformador sería superior cuando se entrena en datos de imágenes y no imágenes (multimodales) en lugar de datos de imágenes o no imágenes solos (unimodales).


Materiales y métodos

Declaración ética

Todos los experimentos se realizaron retrospectivamente, y se otorgó la aprobación del comité de ética local (EK 028/19) y se renunció al consentimiento informado. Para el conjunto de datos externos del Medical Information Mart for Intensive Care (MIMIC), se eliminaron los identificadores específicos del paciente de conformidad con la Ley de Portabilidad y Responsabilidad del Seguro de Salud.

Estudiar pacientes y conjuntos de datos

Para permitir la replicación de los resultados de este estudio retrospectivo y fomentar la investigación en esta dirección, este modelo se evaluó principalmente en datos de la base de datos MIMIC disponible públicamente (10,11). Esta base de datos se compone de datos de imágenes y no imágenes recopilados retrospectivamente en 53 150 pacientes ingresados en una UCI en el Centro Médico Beth Israel Deaconess desde enero de 2008 hasta diciembre de 2019. Siguiendo el trabajo de Hayat et al (12), se extrajo información de imagen y no de imagen de las bases de datos MIMIC-IV (10) y MIMIC-CXR-JPG (11), para las que se disponía de información sobre aproximadamente 15 parámetros clínicos solos o información sobre estos parámetros combinada con información de imagen en forma de radiografías de tórax. Los parámetros clínicos incluyeron presión arterial sistólica, diastólica y media; frecuencia respiratoria; comandos motores, verbales y reveladores según la escala de coma de Glasgow; inspiración de oxígeno; polígrafo; temperatura corporal, peso y estatura; el valor ácido del suero sanguíneo; nivel de glucosa en sangre; y el nivel de oxígeno en sangre. La radiografía de tórax se emparejó con los parámetros clínicos y los parámetros de laboratorio de la misma estancia en la UCI. Esto dio como resultado un subconjunto de 45 676 muestras en 36 542 pacientes (Fig. 1, Tabla 1). Los datos de los 36 542 pacientes han sido reportados previamente (12). El artículo anterior trataba sobre el desarrollo de una arquitectura basada en CNN y redes neuronales recurrentes para combinar datos multimodales, mientras que este estudio trata sobre el desarrollo de una arquitectura basada en transformadores. Además, se siguió el enfoque de Hayat et al (12) y se agruparon los códigos disponibles de la Clasificación Internacional de Enfermedades (CIE)-9 y CIE-10 para 25 categorías de enfermedades supraordenadas (véase la Tabla 2 para una lista completa) en función del Software de Clasificaciones Clínicas (Agency for Healthcare Research and Quality) (13), que es un marco de clasificación clínica de uso común.

Diagram shows an overview of the study. (A–E) Imaging and                         nonimaging information were extracted from the publicly available Medical                         Information Mart for Intensive Care data set (A) and an internal data set of                         chest radiographic and accompanying clinical parametric data (B). The data                         sets were split into training, validation, and test sets, and a                         transformer-based neural network architecture (C) was trained to predict the                         diagnosis of up to 25 different pathologic conditions. First, the attention                         mechanism in the transformer architecture (D) was leveraged to provide                         insight into the decision-making process of the neural network, and it was                         shown that the predictive performance of the neural network (E) increased                         for all three data sets when both imaging and nonimaging inputs (area under                         the receiver operating characteristic curve [AUC], 0.77) were provided                         compared with either imaging (AUC, 0.70) or nonimaging (AUC, 0.72) inputs                         alone.
Figura 1: El diagrama muestra una visión general del estudio. (A-E) La información de imágenes y no imágenes se extrajo del conjunto de datos (A) del Medical Information Mart for Intensive Care disponible públicamente y de un conjunto de datos internos de radiografía de tórax y datos paramétricos clínicos acompañantes (B). Los conjuntos de datos se dividieron en conjuntos de entrenamiento, validación y prueba, y se entrenó una arquitectura de red neuronal (C) basada en transformadores para predecir el diagnóstico de hasta 25 afecciones patológicas diferentes. En primer lugar, se aprovechó el mecanismo de atención en la arquitectura del transformador (D) para proporcionar información sobre el proceso de toma de decisiones de la red neuronal, y se demostró que el rendimiento predictivo de la red neuronal (E) aumentó para los tres conjuntos de datos cuando se proporcionaron entradas de imágenes y no imágenes (área bajo la curva característica operativa del receptor [AUC], 0,77) en comparación con cualquiera de las imágenes (AUC, 0,70) o entradas sin imágenes (AUC, 0,72) solas.
Table 1:
Table 2:

Además, el modelo se evaluó en un conjunto de datos internos de 45 016 pacientes que ingresaron en la UCI de un centro médico académico terciario (Hospital Universitario de Aquisgrán, Aquisgrán, Alemania) desde enero de 2009 hasta diciembre de 2020 (14). Los datos de todos los pacientes se utilizaron en el estudio actual. Además de los datos de imágenes (es decir, radiografías de tórax), este conjunto de datos también contenía datos de series temporales de pruebas de laboratorio, incluidos los niveles de proteína C reactiva (PCR), el recuento de leucocitos, los niveles de procalcitonina (PCT) y los niveles de péptido natriurético cerebral (BNP). Estos valores se incluyeron si estaban disponibles dentro de un período de 20 días antes de la adquisición de la radiografía de tórax y, en total, se disponía de datos para 34 595 (PCR), 40 267 (recuento de leucocitos), 23 084 (PCT) y 9771 (BNP). Las imágenes se emparejaron con todos los datos de laboratorio que precedieron a las imágenes por hasta 20 días. Los datos de imágenes en este conjunto de datos se generaron durante el informe clínico de rutina. En total, 98 radiólogos versados en modalidad utilizaron una plantilla detallada para el informe estructurado sobre la presencia y la gravedad del derrame pleural (izquierdo y derecho), la atelectasia (izquierda y derecha), las opacidades pulmonares (izquierda y derecha), la congestión pulmonar y la cardiomegalia. A las imágenes para las que no se encontró ninguna enfermedad se les asignó un valor objetivo binarizado de 0, mientras que las etiquetas restantes indicaron la presencia de una enfermedad y, por lo tanto, se les asignó el valor de una. Los datos de 45 016 pacientes en este conjunto de datos se han reportado previamente (14). El artículo anterior trató sobre el desarrollo de una CNN entrenada para proporcionar apoyo clínico a médicos no radiólogos que utilizan solo datos de imágenes, mientras que en este estudio, se utilizaron valores de laboratorio adicionales para entrenar una red neuronal basada en transformadores en datos multimodales.

Protocolos de imágenes

El conjunto de datos internos consistió en radiografías de tórax obtenidas utilizando 18 máquinas de radiografía móviles (Mobilett Mira; Siemens Healthineers). Estos sistemas de imagen utilizaron sistemas de película convencionales hasta 2016, después de lo cual hicieron la transición a detectores digitales de pantalla plana. Todas las radiografías fueron adquiridas mediante control automático de exposición y exclusivamente en la proyección anteroposterior. En consecuencia, las imágenes del conjunto de datos MIMIC externos se adquirieron en la proyección anteroposterior.

Preprocesamiento de datos y diseño de redes neuronales

Para una evaluación justa de los modelos, siguiendo el enfoque detallado por Hayat et al (12), el conjunto de datos MIMIC se dividió aleatoriamente en un conjunto de entrenamiento de 42 628 muestras (33 893 pacientes), un conjunto de validación de 882 muestras (740 pacientes) para seleccionar el modelo más optimizado y un conjunto de pruebas de retención de 2166 muestras (1909 pacientes) para evaluar el modelo en datos no vistos. Del mismo modo, el conjunto de datos internos que comprende 193 566 muestras (45 016 pacientes) se dividió aleatoriamente en un conjunto de entrenamiento de 122 294 muestras (28 809 pacientes), un conjunto de validación de 31 243 muestras (7203 pacientes) y un conjunto de pruebas de retención de 40 029 muestras (9004 pacientes) (Fig. 1). Se tuvo especial cuidado para garantizar que cada paciente aparezca solo en un solo conjunto. Las imágenes se normalizaron al rango de 0 a 255, se mejoró el contraste mediante una ecualización de histograma, se cambió el tamaño a 384 × 384 píxeles y se normalizó en z para que coincida con las estadísticas del conjunto de datos de Image Net (15), lo que permitió el uso potencial de modelos previamente entrenados.

La arquitectura de la red neuronal (Fig. 2) se basa en el modelo de transformador de la siguiente manera (16). Las imágenes se tokenizan y se alimentan a través de una red troncal de Vision Transformer (7) para extraer características relevantes de los datos de imágenes. Sobre la base del modelo Percibor (17), los datos no relacionados con la imagen se incorporan mediante el uso del mecanismo de atención cruzada (16), lo que permite escalabilidad y flexibilidad en el manejo de tamaños de entrada variables. Luego se utiliza un bloque codificador de transformador final para la fusión de información de modalidad cruzada, y un perceptrón multicapa se utiliza para generar las salidas de la clasificación multietiqueta. Véanse los cuadros S1 y S2 del apéndice S3 y 2B y 2C para más detalles.

(A) Schematic shows the model architecture, whereby images are first                         split into nonoverlapping patches and subsequently fed through a transformer                         encoder. To account for scalability with regard to the number of nonimaging                         parameters, a fixed set of 64 learnable tokens serves as the neural network                         working memory, and cross-attention is employed to feed the clinical                         information to this working memory. This keeps the network scalable with                         respect to the number of input tokens (ie, clinical parameters). The output                         tokens of both modality-specific neural networks are then merged in a final                         transformer encoder, such that information from both modalities is fused.                         (B) Line graph shows the epoch duration time for models trained on the same                         graphics processing unit (Quadro RTX 6000; NVIDIA). To ensure a comparable                         usage of the graphics processing unit video random-access memory, different                         batch sizes were employed, allowing for a batch size of 170 for the proposed                         model (blue) and a batch size of 14 for the base transformer approach                         (orange). Compared with the conventional setting, in which the imaging and                         nonimaging (time-series) data are fed directly into a common transformer                         encoder block for information fusion, the model used in the current study                         results in shorter training times. (C) Line graph shows graphics processing                         unit (GPU) video random-access memory (VRAM) consumption as a function of                         the number of input parameters. The findings indicate that the employed                         approach (blue) scales much more efficiently than the base transformer                         approach (orange) for an increasing number of input parameters and,                         therefore, allows for larger batch sizes during training. Here, the batch                         size used for each model was based on the maximal possible batch size (in                         terms of video random-access memory consumption of the graphics processing                         unit) when training the model with 3200 timesteps. MiB = mebibyte, MLP =                         multilayer perceptron.
Figura 2: (A) El esquema muestra la arquitectura del modelo, mediante la cual las imágenes se dividen primero en parches no superpuestos y posteriormente se alimentan a través de un codificador transformador. Para tener en cuenta la escalabilidad con respecto al número de parámetros que no son de imagen, un conjunto fijo de 64 tokens aprendibles sirve como memoria de trabajo de la red neuronal, y se emplea atención cruzada para alimentar la información clínica a esta memoria de trabajo. Esto mantiene la red escalable con respecto al número de tokens de entrada (es decir, parámetros clínicos). Los tokens de salida de ambas redes neuronales específicas de la modalidad se fusionan en un codificador de transformador final, de modo que se fusiona la información de ambas modalidades. (B) El gráfico de líneas muestra el tiempo de duración de época para los modelos entrenados en la misma unidad de procesamiento gráfico (Quadro RTX 6000; NVIDIA). Para garantizar un uso comparable de la memoria de acceso aleatorio de vídeo de la unidad de procesamiento de gráficos, se emplearon diferentes tamaños de lote, lo que permitió un tamaño de lote de 170 para el modelo propuesto (azul) y un tamaño de lote de 14 para el enfoque de transformador base (naranja). En comparación con el entorno convencional, en el que los datos de imágenes y no imágenes (series temporales) se alimentan directamente a un bloque codificador de transformador común para la fusión de información, el modelo utilizado en el estudio actual da como resultado tiempos de entrenamiento más cortos. (C) El gráfico de líneas muestra el consumo de memoria de acceso aleatorio (VRAM) de vídeo de la unidad de procesamiento de gráficos (GPU) en función del número de parámetros de entrada. Los hallazgos indican que el enfoque empleado (azul) escala de manera mucho más eficiente que el enfoque del transformador base (naranja) para un número creciente de parámetros de entrada y, por lo tanto, permite tamaños de lote más grandes durante el entrenamiento. Aquí, el tamaño de lote utilizado para cada modelo se basó en el tamaño de lote máximo posible (en términos de consumo de memoria de acceso aleatorio de vídeo de la unidad de procesamiento de gráficos) al entrenar el modelo con 3200 pasos de tiempo. MiB = mebibyte, MLP = perceptrón multicapa.

Disponibilidad de datos

El conjunto de datos MIMIC, incluidos los datos de imágenes y no imágenes, está disponible públicamente a través de PhysioNet (https://physionet.org/content/mimiciv/1.0/) (18). El conjunto interno de datos de la UCI es privado debido a problemas de protección de datos, pero será compartido por los autores tras la presentación de una propuesta de investigación y el consentimiento del oficial de protección de datos y la junta ética.

Disponibilidad de código

El código utilizado para entrenar el modelo descrito en este documento está disponible públicamente en GitHub (https://github.com/FirasGit/lsmt).

Análisis estadístico

Los análisis estadísticos fueron realizados por F.K. y D.T. utilizando Python (versión 3.8; https://www.python.org/), junto con las bibliotecas NumPy y SciPy. El spread estadístico se determinó utilizando boot strapping con 1000 redibujos, con reemplazo del conjunto de prueba para cada medida. El criterio de Youden se utilizó para determinar un umbral para los cálculos de sensibilidad, especificidad y valor predictivo positivo, que implica encontrar el umbral que maximiza la suma de sensibilidad y especificidad. Para calcular los valores de P para las enfermedades individuales, se utilizó la prueba DeLong (19), que se desarrolló específicamente para el área de prueba bajo las puntuaciones de la curva característica operativa (AUC) del receptor. Para estimar los valores de p de las puntuaciones medias del AUC, calculamos las diferencias por pares entre las puntuaciones AUC de arranque para cada modelo con redibujantes idénticos y calculamos la fracción de diferencias con valores menores que 0. No se eligió un nivel de significación particular para evitar la dicotomización de los resultados como significativos o no significativos (20) y para obviar la necesidad de compensar las pruebas de hipótesis múltiples. Los datos se presentan como medias ± DEs y AUCs con ICs del 95%. El debate sobre los tamaños mínimos de la muestra está en curso, y al menos 200 pacientes se consideran necesarios para las tareas de clasificación (21). En este estudio, se incluyeron tantos pacientes como fue posible (es decir, 36 542 y 45 016 pacientes), evitando así la necesidad de realizar estimaciones del tamaño de la muestra.

Resultados

Características del paciente

En este estudio, se utilizaron dos conjuntos de datos (Tabla 1, Fig. 1) para evaluar la arquitectura de red neuronal propuesta. El conjunto de datos MIMIC contiene datos de 53 150 pacientes, de los cuales 16 608 pacientes fueron excluidos ya que no tenían mediciones para ninguno de los 15 parámetros clínicos utilizados en este estudio; por lo tanto, se utilizaron datos de 36 542 pacientes (edad media, 63 años ± 17 [DE]; 20 567 pacientes masculinos) en este estudio. El conjunto de datos internos contiene datos de 45 016 pacientes (edad media, 66 años ± 16; 27 577 pacientes varones).

Rendimiento del transformador multimodal para el diagnóstico de múltiples enfermedades

El modelo fue entrenado y evaluado sobre los datos disponibles públicamente de 36 542 pacientes que recibieron tratamiento en una UCI (10,11). Las radiografías de tórax y los datos clínicos que lo acompañan se emplearon como entradas para el modelo, y se permitió al modelo predecir un conjunto completo de 25 afecciones patológicas. Consistentemente, el AUC fue mayor cuando se emplearon datos de imágenes y no imágenes que cuando se usaron datos de imágenes o sin imágenes solos (Tabla 2Fig. S1). El AUC medio fue de 0,77 (IC del 95%: 0,77; 0,78) cuando se utilizaron radiografías de tórax y parámetros clínicos, en comparación con 0,70 (IC del 95%: 0,69; 0,71; P < .001) cuando sólo radiografías de tórax y 0,72 (IC 95%: 0,72, 0,73; P < .001) cuando solo se utilizaron parámetros clínicos. Se observaron tendencias similares para la sensibilidad (parámetros clínicos más radiografías de tórax: 70% [IC del 95%: 69, 71]; parámetros clínicos: 69% [IC del 95%: 68, 70]; radiografías de tórax: 66% [IC del 95%: 65, 67]), especificidad (parámetros clínicos más radiografías de tórax: 72% [IC del 95%: 72, 73]; parámetros clínicos: 65% [IC del 95%: 64, 65]; radiografías de tórax: 65% [IC del 95%: 65, 66]), y valor predictivo positivo (parámetros clínicos más radiografías de tórax: 40% [IC 95%: 40, 41]; parámetros clínicos: 35% [IC 95%: 34, 35]; radiografías de tórax: 34% [IC 95%: 34, 35]). Más importante aún, el rendimiento del transformador multimodal es comparable con otros enfoques de vanguardia (por ejemplo, MedFuse [12], que demostró un AUC de 0.770 [IC 95%: 0.745, 0.795] para el caso multimodal), mientras que no requiere un ajuste extenso de hiperparámetros. Consulte la Tabla 3 para una comparación detallada con el desempeño anterior logrado con CNN. El modelo se evaluó adicionalmente en una tarea adicional utilizando un conjunto de datos independiente, que fue el diagnóstico radiológico integral de radiografías de tórax basado en datos de imágenes y datos de laboratorio acompañantes (Tabla S1Fig. S2) (14). El AUC medio fue de 0,84 (IC del 95%: 0,83; 0,84) cuando se utilizaron radiografías de tórax y parámetros clínicos, en comparación con 0,83 (IC del 95%: 0,82; 0,83; P < .001) cuando sólo radiografías de tórax y 0,67 (IC 95%: 0,66, 0,67; P < .001) cuando solo se utilizaron parámetros clínicos (Fig. 3Tabla S1). Una vez más, también se observaron tendencias similares para la sensibilidad (parámetros clínicos más radiografías de tórax: 77% [IC del 95%: 77, 77]; parámetros clínicos: 73% [IC del 95%: 73, 73]; radiografías de tórax: 76% [IC del 95%: 76, 76]), especificidad (parámetros clínicos más radiografías de tórax: 74% [IC del 95%: 73, 73]; parámetros clínicos: 52% [IC del 95%: 52, 52]; radiografías de tórax: 73% [IC del 95%: 73, 73]), y valor predictivo positivo (parámetros clínicos más radiografías de tórax: 71% [IC 95%: 71, 71]; parámetros clínicos: 56% [IC 95%: 56, 56]; radiografías de tórax: 70% [IC 95%: 69, 70]).

Table 3:

Rendimiento del transformador multimodal cuando faltaban datos

La arquitectura de transformador propuesta funcionó cuando faltaban datos y se asemejó al razonamiento humano en el sentido de que su rendimiento disminuyó continuamente cuando faltaban cantidades crecientes de datos clínicamente relevantes. Los datos del paciente del conjunto de prueba se enviaron al transformador entrenado con algunos de los parámetros de entrada omitidos aleatoriamente. El rendimiento en términos del AUC medio (15 parámetros a 0,77 [IC del 95%: 0,76, 0,77] frente a un parámetro a 0,73 [IC del 95%: 0,73, 0,74]) disminuyó continuamente cuando se omitieron cantidades crecientes de datos, de acuerdo con las expectativas. Se observaron tendencias similares para la sensibilidad, la especificidad y el valor predictivo positivo (Fig. 4A).

(A) Box plots show performance in terms of the area under the receiver                         operating characteristic curve, positive predictive value, sensitivity, and                         specificity of the neural network trained on the Medical Information Mart                         for Intensive Care data set when a number of clinical parameters (nonimaging                         information) were omitted. Performance continuously decreased with an                         increasing number of omitted clinical parameters. Boxes indicate the IQR                         between the first and third quartiles and whiskers extend to ± 1.5                         × IQR, while the center line denotes the median. (B) Horizontal bar                         graphs show clinical parameters that most affected the performance of the                         neural network for diagnosis of diabetes (without complications), shock,                         acute cerebrovascular disease, and septicemia. To gain an understanding of                         the clinical parameters that most affected neural network performance for a                         specific pathologic condition, the percentage decrease in mutual information                         between the predicted distribution over all samples and their ground truth                         labels when a specific clinical parameter was left out during inference was                         determined. Error bars denote SDs. GCS = Glasgow Coma Scale.
Figura 4: (A) Los diagramas de caja muestran el rendimiento en términos del área bajo la curva característica operativa del receptor, el valor predictivo positivo, la sensibilidad y la especificidad de la red neuronal entrenada en el conjunto de datos del Medical Information Mart for Intensive Care cuando se omitieron varios parámetros clínicos (información no relacionada con imágenes). El rendimiento disminuyó continuamente con un número creciente de parámetros clínicos omitidos. Los recuadros indican el IQR entre el primer y tercer cuartil y los bigotes se extienden hasta ± 1,5 × IQR, mientras que la línea central denota la mediana. (B) Los gráficos de barras horizontales muestran los parámetros clínicos que más afectaron el rendimiento de la red neuronal para el diagnóstico de diabetes (sin complicaciones), shock, enfermedad cerebrovascular aguda y septicemia. Para obtener una comprensión de los parámetros clínicos que más afectaron el rendimiento de la red neuronal para una condición patológica específica, se determinó la disminución porcentual en la información mutua entre la distribución predicha en todas las muestras y sus etiquetas de verdad en el terreno cuando se omitió un parámetro clínico específico durante la inferencia. Las barras de error indican SD. GCS = Escala de coma de Glasgow.

Acuerdo de transformadores multimodales con razonamiento clínico

Al medir el porcentaje de disminución en la información mutua entre la predicción del modelo y la verdad básica para descubrir relaciones entre los datos disponibles y el rendimiento diagnóstico para parámetros clínicos específicos (consulte el Apéndice S1 para obtener detalles sobre esta metodología), se encontró que los resultados de este análisis coinciden en gran medida con el razonamiento clínico. Los parámetros clínicos que son relevantes para un estado específico del paciente, como la presión arterial para el shock o la concentración de glucosa para la diabetes, condujeron a la mayor pérdida de información cuando se omitieron (Fig. 4B). En el Apéndice S1 y la Figura S3 se proporciona una visión general completa de todas las afecciones clínicas.

El transformador multimodal se centra en las regiones de imagen patológica

Al hacer uso del mecanismo de atención inherente, se pueden generar mapas que muestran dónde enfoca su atención el modelo del transformador, incluidas las subregiones de las radiografías que obtienen los factores de ponderación más altos para el diagnóstico final (consulte el Apéndice S1 para obtener más detalles sobre el método utilizado). La Figura 5 ilustra estos mapas de atención utilizando tres ejemplos representativos de cada conjunto de datos. Consistentemente, los mapas de atención exhiben sus valores más altos en las regiones de la imagen que son indicativas de las patologías.

Representative radiographs (top), acquired in anteroposterior                         projection in the supine position, and corresponding attention maps                         (bottom). (A) Images show main diagnostic findings of the internal data set                         in a 49-year-old male patient with congestion, pneumonic infiltrates, and                         effusion (left); a 64-year-old male patient with congestion, pneumonic                         infiltrates, and effusion (middle); and a 69-year-old female patient with                         effusion (right). (B) Images show main diagnostic findings of the Medical                         Information Mart for Intensive Care data set in a 79-year-old male patient                         with cardiomegaly and pneumonic infiltrates in the right lower lung (left);                         a 58-year-old female patient with bilateral atelectasis and effusion in the                         lower lungs (middle); and a 48-year-old female patient with pneumonic                         infiltrates in the lower right lung (right). Note that the attention maps                         consistently focus on the most relevant image regions (eg, pneumonic                         opacities are indicated by opaque image regions of the lung).
Figura 5: Radiografías representativas (arriba), adquiridas en proyección anteroposterior en posición supina, y mapas de atención correspondientes (abajo). (A) Las imágenes muestran los principales hallazgos diagnósticos del conjunto de datos internos en un paciente masculino de 49 años con congestión, infiltrados neumáticos y derrame (izquierda); un paciente masculino de 64 años con congestión, infiltrados neumónicos y derrame (medio); y una paciente de 69 años con derrame (derecha). (B) Las imágenes muestran los principales hallazgos diagnósticos del conjunto de datos del Medical Information Mart for Intensive Care en un paciente varón de 79 años con cardiomegalia e infiltrados neumáticos en el pulmón inferior derecho (izquierda); paciente de 58 años con atelectasia bilateral y derrame en los pulmones inferiores (medio); y una paciente de 48 años con infiltrados neumónicos en la parte inferior derecha del pulmón (derecha). Tenga en cuenta que los mapas de atención se centran constantemente en las regiones de imagen más relevantes (por ejemplo, las opacidades neumónicas se indican mediante regiones de imagen opacas del pulmón).

Discusión

En los últimos años, ha habido un aumento de las aplicaciones de modelos de aprendizaje profundo para resolver problemas médicos (14,22–24); Sin embargo, estos modelos suelen utilizar datos de una sola modalidad (por ejemplo, datos de imágenes).

Los modelos de transformadores se han propuesto como un candidato ideal para evaluar datos multimodales, ya que se desarrollaron por primera vez en datos distintos de la imagen (25,26) y ahora han demostrado ser competitivos con las CNN desarrolladas en datos de imágenes (27). En nuestro estudio, desarrollamos un enfoque escalable totalmente basado en transformadores para la predicción multimodal basada en imágenes médicas y datos no relacionados con imágenes. Nuestro modelo demuestra un rendimiento mejorado cuando se le presentan datos multimodales, puede manejar los datos faltantes y permite obtener información sobre el proceso de toma de decisiones de la red. Lo más importante es que, basándose en la arquitectura Percibir (17), nuestro modelo es escalable y se puede aplicar a conjuntos de datos en los que tanto el número de pacientes como los datos por paciente son extensos. Cuando se entrenaron conjuntamente con datos de radiografías de tórax y parámetros clínicos de la base de datos MIMIC disponible públicamente, el AUC medio fue consistentemente mayor (0,77 [IC del 95%: 0,77, 0,78]) en comparación con el de los modelos entrenados en imágenes (0,70 [IC del 95%: 0,69, 0,71], P < 001,0) o sin imágenes (72,95 [IC del 0%: 72,0, 73,001], P < <>,<>) solos.

Los grupos de investigación anteriores han invertido un esfuerzo considerable para procesar datos contextuales (sin imágenes) y de imágenes. Huang et al (28) examinaron la literatura e identificaron tres estrategias principales de fusión, que son la fusión temprana, conjunta y tardía. La fusión temprana concatena las características multimodales en el nivel de entrada; La fusión conjunta emplea extractores de características separados para cada modalidad, uniendo posteriormente las representaciones de características aprendidas; y la fusión tardía agrega predicciones de modelos separados a nivel de decisión. Nuestro enfoque puede describirse mejor como fusión conjunta porque hace uso de extractores de características antes de combinar las modalidades. Como columna vertebral, utilizamos el modelo bien establecido Vision Transformer. Por diseño, las redes troncales intercambiables son la pieza central de nuestro conjunto centrado en transformadores y, si es necesario, esta columna vertebral se puede intercambiar por transformadores más avanzados una vez que estén disponibles más modelos futuros de alto rendimiento.

Con esta columna vertebral, nuestro modelo logró resultados que son comparables con otros enfoques de vanguardia (12) y, al mismo tiempo, es escalable, proporciona información sobre el proceso de toma de decisiones y es robusto en el sentido de que el modelo se puede aplicar cuando faltan datos. Estas propiedades son indispensables para la aplicación a la rutina clínica donde los datos faltantes y las series temporales largas de datos son muy comunes (29).

Para los dos conjuntos de datos investigados de radiografías con datos no relacionados con imágenes, encontramos un aumento constante en el rendimiento diagnóstico cuando se utilizaron datos clínicos sin imágenes junto con datos de imágenes. Esto está en línea con otros estudios que han utilizado modelos de aprendizaje profundo para combinar diferentes modalidades de datos, como histopatología y TC (30), y se espera que los modelos multimodales que pueden combinar una amplia gama de modalidades dominen el panorama futuro de la inteligencia artificial (29). Sin embargo, es posible que el rendimiento diagnóstico no se beneficie inevitablemente de la integración de datos de imagen y no de imagen. Por ejemplo, la diabetes se diagnostica predominantemente sin imágenes, mientras que el diagnóstico del neumotórax se basa principalmente en imágenes.

Este estudio tuvo varias limitaciones. En primer lugar, los ejemplos aquí demostrados hacen uso de datos de imágenes bidimensionales; Sin embargo, una cantidad sustancial de datos de imágenes médicas son tridimensionales, y si los paradigmas presentados se mantienen con los datos tridimensionales debe demostrarse una vez que dichos conjuntos de datos estén disponibles. En segundo lugar, probamos nuestra red neuronal en el contexto del aprendizaje supervisado, que requiere la presencia de etiquetas para cada paciente y limitó el rango de datos que se pueden emplear para entrenar nuestra arquitectura. En tercer lugar, la transferibilidad del dominio de nuestro modelo no pudo probarse debido a la falta de conjuntos de datos adecuados que tengan etiquetas concordantes y datos concordantes disponibles para el entrenamiento. En cuarto lugar, no realizamos una comparación con otras arquitecturas de modelos con respecto a los tiempos de entrenamiento, ya que esto estaba más allá del alcance del presente estudio. Los estudios futuros que comparen dichos modelos requerirían implementar estos modelos cara a cara utilizando entornos idénticos de entrenamiento, validación y prueba.

En conclusión, este estudio ha demostrado que un modelo de transformador entrenado en datos de imágenes a gran escala y no imágenes superó a los modelos entrenados en datos unimodales, aunque los estudios futuros deberían investigar otros escenarios de imágenes para confirmar de manera confiable la generalización. Con el advenimiento de las arquitecturas de transformadores y el creciente interés en los modelos multimodales de aprendizaje profundo, esperamos que los conjuntos de datos a gran escala que incluyen diferentes modalidades, desde radiografía hasta resonancia magnética, anatomías de pies a cabeza y diversas condiciones, estén disponibles públicamente. Esto constituirá una aplicación ideal y un campo de pruebas para los modelos de transformadores presentados en este estudio.

Publicado por saludbydiaz

Especialista en Medicina Interna-nefrología-terapia intensiva-salud pública. Director de la Carrera Economía y gestión de la salud de ISALUD. Director Médico del Sanatorio Sagrado Corazon Argentina. 2010-hasta la fecha. Titular de gestión estratégica en salud

Deja un comentario