Pregunta ¿Puede un modelo sintético con supresión ósea (DLBS) basado en el aprendizaje profundo mejorar adicionalmente la detección de nódulos pulmonares en las radiografías de tórax?
En este estudio de modelado analítico de decisión de 1449 pacientes, el modelo DLBS fue más sensible a la detección de nódulos pulmonares en radiografías de tórax en comparación con el modelo original. Además, los radiólogos experimentaron un mejor rendimiento de detección de nódulos cuando fueron asistidos por el modelo DLBS.
Estos resultados sugieren que el modelo DLBS podría ser beneficioso para los radiólogos en la detección de nódulos pulmonares en radiografías de tórax sin necesidad del equipo especializado o aumento de la dosis de radiación.
Introducción
La radiografía de tórax es el procedimiento de diagnóstico por imágenes más comúnmente realizado, que se utiliza para la detección, los exámenes de diagnóstico y el monitoreo de diversas enfermedades torácicas. 1,2 Sin embargo, muchos estudios previos han indicado las limitaciones de la radiografía de tórax para la detección del cáncer de pulmón con una tasa de detección baja, especialmente para los nódulos pulmonares pequeños. 3,4 Por lo tanto, la interpretación precisa de las radiografías de tórax requiere una gran experiencia y conocimientos médicos por parte del radiólogo. Además, la radiografía de tórax está sujeta a una variabilidad sustancial entre lectores y a una sensibilidad subóptima para hallazgos clínicos importantes.
Aunque la radiografía de tórax es clínicamente útil, eficiente y rentable, este examen consiste en información anatómica compleja de 3 dimensiones condensada en una proyección de 2 dimensiones. Por lo tanto, los nódulos pequeños pueden estar protegidos por las costillas y la escápula y, por lo tanto, perderse durante la interpretación de la radiografía. Para resolver este problema, se desarrollaron técnicas de sustracción de energía dual para distinguir el hueso del tejido blando. La radiografía de tórax de energía dual (DECR) exhibe una mejor sensibilidad que la radiografía de tórax de energía única, en parte debido a su capacidad para eliminar las estructuras anatómicas suprayacentes. Se ha demostrado que la DECR mejora la capacidad de detectar y caracterizar los nódulos pulmonares 5-8; sin embargo, las desventajas de DECR incluyen la necesidad de equipo especializado y un pequeño aumento potencial en la dosis de radiación.
La tecnología de aprendizaje profundo tiene el potencial de detectar automáticamente anomalías o ayudar a los radiólogos a leer radiografías de tórax. Se han probado varios algoritmos de inteligencia artificial en un esfuerzo por reducir los errores del radiólogo y aumentar la tasa de detección de nódulos pulmonares en las radiografías de tórax. 9-12 Además, varios estudios se han centrado en técnicas de supresión ósea utilizando inteligencia artificial. 13-15
Una red neuronal convolucional (CNN) es una técnica de inteligencia artificial que se ha aplicado ampliamente hasta la fecha en el campo médico y puede realizar diversas tareas como la clasificación de imágenes, la segmentación y la regresión con alta precisión. Desarrollamos un algoritmo de detección de nódulos pulmonares sintéticos con supresión ósea (DLBS) basado en aprendizaje profundo modificando una red U convencional para aprovechar la información dominante de alta frecuencia que se propaga desde la parte de codificación a la parte de decodificación. La red presentada es diferente del procesamiento de imágenes convencional basado en el aprendizaje profundo, que se ha demostrado que mejora las características de la imagen, como el ruido y la resolución. La idea principal del modelo desarrollado es que cuando una característica se propaga de codificación a decodificación, solo se extraen y propagan los componentes de alta frecuencia. El modelo propuesto también reduce drásticamente el número de parámetros al agregar características de la codificación que se propagan a la parte de decodificación en lugar de la concatenación de características de U-net. 16
El propósito de este estudio fue desarrollar y validar un algoritmo de detección de nódulos DLBS para la detección de nódulos pulmonares en radiografías de tórax y comparar el rendimiento de detección con el de los radiólogos torácicos.
Métodos
Para este estudio de modelado analítico de decisión, se obtuvo la aprobación de la junta de revisión ética e institucional de todas las instituciones participantes (Severance Hospital, Pusan National University Hospital y Dongsan Medical Center) y se renunció al requisito de consentimiento informado debido a este diseño retrospectivo del estudio. Las radiografías de tórax de proyección posterior-anterior obtenidas de 3 hospitales terciarios fueron recolectadas para el desarrollo y validación de un algoritmo de detección de nódulos DLBS. Todas las radiografías de tórax fueron desidentificadas. Las radiografías candidatas se clasificaron por criterios de inclusión y exclusión, independientemente del tipo de sistema de adquisición (radiografía computarizada o radiografía digital) o del fabricante del dispositivo radiográfico. Este estudio siguió las partes relevantes de la guía de informes de los Estándares Consolidados de Informes de Evaluación Económica de la Salud (CHEERS).
Conjuntos de datos
Para el desarrollo del algoritmo, recolectamos retrospectivamente 1004 radiografías de tórax obtenidas entre noviembre de 2015 y diciembre de 2019 de un solo centro (institución 1). Se incluyeron radiografías normales de adultos sanos (de al menos 19 años de edad) que se sometieron a radiografías de tórax de detección de salud y, si también se realizó una tomografía computarizada (TC) de tórax normal dentro de los 14 días posteriores a la radiografía, se recogió.
Las radiografías de tórax con nódulos pulmonares se recolectaron según los siguientes criterios de inclusión: (1) pacientes adultos (de al menos 19 años de edad) que se sometieron a biopsia o cirugía para 1 o más nódulos pulmonares comprobados por TC y patología, independientemente del tipo patológico (neoplasia maligna o benigna) y componente (sólido, parcialmente sólido o vidrio esmerilado); (2) al menos 1 nódulo necesitaba ser probado patológicamente; (3) el número de lesiones por radiografía fue de 3 o menos; (4) todos los nódulos en la radiografía midieron entre 1 y 3 cm de diámetro en imágenes de TC (la longitud del eje corto en cualquier plano de TC se utilizó para evitar la sobreestimación); y (5) los nódulos no estaban en una vía aérea importante o en el mediastino. No se excluyeron las radiografías de tórax que contenían hallazgos anormales distintos de los nódulos pulmonares, como consolidación, atelectasia o derrame pleural. Se excluyeron todas las radiografías consideradas inadecuadas para la interpretación clínica. Todas las radiografías de tórax fueron revisadas cuidadosamente por 2 radiólogos torácicos experimentados basados en el consenso.
Mediante el uso de los criterios antes mencionados, los datos de radiografía de tórax se asignaron aleatoriamente en 1 de los siguientes 3 conjuntos de datos: un conjunto de datos de entrenamiento que consistía en 800 radiografías de tórax (incluidas 335 radiografías de tórax normales y 465 de nódulos), un conjunto de datos de sintonía (compuesto por 98 radiografías de tórax de tórax normales y 48 radiografías de tórax), y un conjunto de datos de validación interna (compuesto por 50 radiografías de tórax consistentes en 100 radiografías de tórax normales y 40 de nódulos) para validar el rendimiento de detección de la red entrenada (eFigura 60 en el Suplemento). Se prepararon dos conjuntos de datos independientes adicionales para la validación externa de 1 hospitales diferentes (instituto 2, 2 pacientes con 246 radiografías de tórax normales y 131 de nódulos; instituto 115, 3 pacientes con 205 radiografías de tórax normales y 113 de nódulos) utilizando los mismos criterios de inclusión y exclusión (eFigura 92 en el Suplemento). En el cuadro 1 se proporciona información demográfica detallada.
Etiquetado y anotación (referencia estándar)
En los conjuntos de datos de desarrollo, las radiografías de tórax se etiquetaron como radiografías de tórax normales o de nódulos (etiquetado a nivel de imagen), y se anotaron las ubicaciones de los nódulos en las radiografías de tórax de nódulos. Dos radiólogos torácicos (con más de 5 años de experiencia) revisaron cada tomografía computarizada como un estándar de referencia y marcaron la ubicación de los nódulos verdaderos como una región de interés (ROI) en consenso. Se utilizaron como referencia las tomografías computarizadas de tórax realizadas dentro de las 2 semanas. Para los 2 conjuntos de datos de validación externa, 2 radiólogos torácicos también etiquetaron las radiografías de tórax y anotaron la ubicación de los nódulos en las radiografías de tórax sobre la base de las tomografías computarizadas de tórax realizadas dentro de las 2 semanas.
Desarrollo del Modelo DLBS
El modelo desarrollado basado en el aprendizaje profundo consistió en 2 subsistemas responsables de (1) generar imágenes de solo hueso y tejido blando a partir de radiografía de tórax de energía única y (2) detectar nódulos pulmonares sospechosos, respectivamente.
Para el primer paso, desarrollamos previamente un algoritmo sintético de supresión ósea basado en redes neuronales convolucionales profundas (DCNN) basado en U-net,16 que es una arquitectura de red neuronal convolucional profunda con análisis de resolución múltiple realizado por convolución repetida y cambios de dimensión de características. La idea principal del modelo desarrollado era que, cuando una característica se propaga de la codificación a la decodificación, solo se extraen y propagan los componentes de alta frecuencia. El modelo proyectó selectivamente las imágenes de radiografía de tórax solo de hueso y tejido blando a partir de una sola imagen de radiografía de tórax de energía. Las radiografías de tórax con supresión ósea se sintetizaron automáticamente a través de un modelo codificador-decodificador basado en DCNN. Una descripción detallada del desarrollo del algoritmo basado en el aprendizaje profundo se puede encontrar en un estudio anterior. 16
Para el segundo paso, desarrollamos un algoritmo de detección de nódulos pulmonares basado en un algoritmo de red neuronal de convolución (CNN) conocido como «solo miras una vez» (YOLO). 17 El algoritmo desarrollado personalizó un algoritmo YOLO versión 3 CNN para la detección de nódulos pulmonares. En general, la red consta de 2 componentes principales: (1) un extractor de características que filtra la presencia de nódulos entre los datos de entrada, y (2) un generador de cuadro delimitador que determina la ubicación del nódulo. El modelo DLBS fue entrenado para detectar nódulos pulmonares usando el conjunto de datos de entrenamiento que involucran imágenes sintéticas con supresión ósea y el modelo CNN fue entrenado por separado para detectar nódulos pulmonares usando radiografías de tórax originales (Figura 1; y eFigura 2 en el Suplemento). Para maximizar el rendimiento de detección de nódulos, se desarrolló un modelo de conjunto a través de una validación cruzada de 5 veces, y se utilizó un método de muestreo duro-negativo (modelo de conjunto).

El modelo DLBS utilizó imágenes sintéticas automáticas de supresión ósea para detectar nódulos pulmonares de radiografías de tórax originales, mientras que el modelo CNN detectó nódulos pulmonares en radiografías de tórax originales.

Evaluación de los modelos DLBS y CNN
Para la validación interna (instituto 1) y externa (institutos 2 y 3), los resultados de detección de nódulos se evaluaron por nódulo. Primero, evaluamos el rendimiento del algoritmo de detección de nódulos DLBS (modelo DLBS) en comparación con el del algoritmo de detección de nódulos CNN (modelo CNN) utilizando conjuntos de datos internos (instituto 1) y validación externa (instituto 2 e instituto 3) (Figura 2). Se comparó el rendimiento de detección de nódulos del algoritmo de detección de nódulos CNN (modelo CNN) entrenado con las radiografías de tórax originales y sus correspondientes radiografías de tórax con supresión ósea (modelo DLBS), respectivamente.
En segundo lugar, se realizó una prueba de rendimiento del observador utilizando los conjuntos de datos del instituto 3 para comparar el rendimiento de detección de nódulos del modelo DLBS con el de los médicos. Durante la prueba 1, 3 radiólogos torácicos (con más de 5 años de experiencia) revisaron de forma independiente cada radiografía de tórax para discriminar radiografías de tórax normales de radiografías de tórax de nódulos y nódulos pulmonares localizados (detección de nódulos) sin usar el modelo DLBS. Los lectores analizaron de forma independiente las radiografías de tórax sin información clínica, radiografías previas o hallazgos de TC, luego marcaron hasta 3 regiones con ROI individuales que eran sospechosas de nódulos. Los lectores sabían que cada imagen puede tener hasta 3 nódulos (0-3), pero no sabían qué radiografías eran normales o tenían nódulos.
Durante la prueba 2, cada lector volvió a analizar las mismas imágenes de la prueba 1 asistido con el modelo DLBS después del período de lavado de 1 semana desde la prueba 1. Los lectores volvieron a analizar las radiografías de tórax que ayudaron con los resultados de detección del modelo DLBS al mismo tiempo. Luego se pidió a cada revisor que marcara hasta 3 regiones con ROI individuales si se sospechaba algún nódulo en la imagen.
Análisis estadístico
El resultado de los datos se presentó en un formato binario en el que la presencia y ubicación del nódulo se muestra en un cuadro delimitador. La sensibilidad se definió como el número de marcas verdadero-positivas dividido por el número de ROI de la verdad sobre el terreno y se comparó mediante regresión logística. Una caja proyectada se consideraba un verdadero positivo si la caja cubría más del 50% del área de la caja de verdad del suelo. Las marcas de falsos positivos por imagen (FPPI) se definieron como el número total de marcas falsas positivas dividido por el número total de radiografías y se compararon con la regresión de Poisson. La ecuación de estimación generalizada se aplicó para tener en cuenta los efectos de agrupamiento causados por el diseño multicéntrico y / o multilector.
P < .05 se consideró estadísticamente significativo. Los análisis estadísticos se realizaron de marzo a diciembre de 2021 utilizando el programa de software SAS versión 9.4 (SAS Institute) y el paquete estadístico R versión 4.1.13 (Proyecto R para Computación Estadística).
Resultados
Participantes del estudio
Los datos de entrenamiento consistieron en 998 pacientes (539 hombres [54,0%]; edad media [DE], 54,2 [9,82] años) del instituto I. Había 598 nódulos en las 575 radiografías de tórax de nódulos. El tamaño medio (DE) del nódulo medido a partir de imágenes de TC fue de 23,8 (8,8) mm. Un total de 80,7 % (483 de 598) nódulos eran cánceres primarios de pulmón, 8,4 % (50 de 598) eran metástasis y 10,9 % (65 de 598) eran benignos. Se utilizaron dos conjuntos de datos de validación externa de 246 pacientes (133 hombres [54,1%]; edad media [DE], 55,3 [8,74] años) y 205 pacientes (105 hombres [51,2%]; edad media [DE], 51,8 [9,13] años) para validar el rendimiento de detección de nódulos DLBS, respectivamente. Hubo 119 nódulos con un tamaño medio (DE) de 24,4 (7,4) mm del instituto 2 y 92 nódulos con un tamaño medio (DE) de 25,1 (8,7) mm del instituto 3. Las características demográficas de los participantes para los conjuntos de datos de nódulos se resumen en el cuadro 1.
Rendimiento de detección de nódulos de los modelos DLBS y CNN
Para el conjunto de datos de validación interna de 100 radiografías de tórax (40 radiografías de tórax normales y 60 radiografías de tórax de nódulos), nuestro modelo original (el algoritmo CNN) mostró una sensibilidad del 86,7% (52 de 60) para el rendimiento de detección de nódulos. Cuando el modelo con supresión ósea (el modelo DLBS) analizó de forma independiente las radiografías de tórax, la sensibilidad mejoró en comparación con el modelo original (96,7 % [58 de 60] frente a 86,7 % [52 de 60]; P = 008,3) (eFigura 0 en el suplemento). Las tasas de FPPI con el modelo original fueron 06,6 (100 de 0) y el modelo con supresión ósea fue de 05,5 (100 de 71). La media global de FPPI con el modelo original no fue significativamente diferente en comparación con la de FPPI con el modelo con supresión ósea (P = 2,<>) (Tabla <>).
Utilizando datos de validación externa del instituto 2 y del instituto 3, el modelo de supresión ósea mostró una mayor sensibilidad en comparación con la del modelo original para la detección de nódulos (instituto 2: 91,5% [109 de 119] frente a 79,8% [95 de 119]; P < .001; e Instituto 3: 92,4% [85 de 92] vs 80,4% [74 de 92]; P < .001). La media general de FPPI con el modelo con supresión ósea se redujo en comparación con el modelo original (instituto 2: 0,07 [17 de 246] vs 0,09 [23 de 246]; P < .001; e instituto 3: 0,09 [19 de 205] vs 0,16 [32 de 205], P < .001) (Tabla 2).
Prueba de rendimiento del lector con o sin el modelo DLBS
Para la prueba de rendimiento del observador utilizando el instituto 3, los 3 radiólogos habían mejorado la sensibilidad utilizando el modelo DLBS (observador 1: 92,4% [85 de 92] vs 80,4% [74 de 92]; P = 001,2; Observador 91: 4,85% [92 de 76] vs 1,70% [92 de 001]; P < .3; y observador 91: 4,85% [92 de 77] frente a 2,71% [92 de 001]; P < .3). La sensibilidad media de los 77 radiólogos por sí solos fue del 5,95% (IC 69%, 9,85%-2,92%), mientras que la de los radiólogos cuando fueron asistidos por el modelo DLBS fue del 1,95% (IC 86%, 3,97%-3,001%; P < .3) (Tabla <>).
Los 3 radiólogos lograron un número reducido de FPPI cuando fueron asistidos por el modelo DLBS (observador 1: 0,059 [12 de 205] vs 0,143 [30 de 205]; P < .001; Observador 2: 0.087 [18 de 205] vs 0.165 [35 de 205]; P = 001,3; y observador 0: 063,13 [205 de 0] vs 154,33 [205 de 001]; P < .3) (Tabla 3). Los 0 radiólogos tuvieron un número reducido de FPPI cuando fueron asistidos por el modelo DLBS (071,95 [IC 0%, 041,0-111,0] vs 151,95 [IC 0%, 111,0-210,001]; P < .3) (Tabla <>).
Discusión
Este estudio fue diseñado para desarrollar y validar si un modelo de DLBS puede mejorar adicionalmente la detección de nódulos pulmonares en radiografías de tórax y mejorar el rendimiento diagnóstico de los radiólogos torácicos. El hallazgo principal fue que nuestro modelo con supresión ósea (el modelo DLBS) podría detectar con mayor precisión los nódulos pulmonares en las radiografías de tórax en comparación con el modelo original (el algoritmo CNN). Además, los radiólogos experimentaron un mejor rendimiento de detección de nódulos cuando fueron asistidos por el modelo DLBS.
Las radiografías de tórax se utilizan ampliamente para la detección de una amplia gama de anomalías pulmonares, incluidos los nódulos pulmonares, pero los nódulos pulmonares pueden ser difíciles de detectar debido a la superposición con estructuras anatómicas normales, como las costillas y la clavícula. El uso de imágenes de tejidos blandos de energía dual puede mejorar la detección de opacidades focales de tejidos blandos, como nódulos pulmonares, que pueden estar parcialmente oscurecidas por estructuras óseas suprayacentes. 5-8 Estudios previos han informado que las radiografías de sustracción de energía dual mejoraron la detección de nódulos y masas pulmonares en la práctica clínica diaria. 6,7,18 Un estudio previo encontró que el rendimiento del observador mejoró aún más mediante el uso de imágenes de tejidos blandos de energía dual (área bajo la curva característica de operación del receptor [AUC] de 0.867 a 0.916), y esta mejora fue estadísticamente significativa para los 6 observadores experimentados (AUC de 0.894 a 0.945). 19 A pesar de las ventajas, un número muy limitado de hospitales utiliza la radiografía de sustracción de energía dual porque se requiere equipo especializado para obtener exposiciones de rayos X de energía dual. Además, se puede aumentar la dosis de radiación.
Asumimos que nuestro algoritmo DLBS podría generar imágenes del parénquima pulmonar mientras restaba las estructuras óseas suprayacentes de las imágenes de radiografía de tórax y, por lo tanto, detectar eficientemente los nódulos pulmonares de las imágenes del parénquima pulmonar, ya que las estructuras óseas suprayacentes ya habían sido sustraídas. Actualmente, se han probado varios algoritmos basados en aprendizaje profundo en un esfuerzo por mejorar el rendimiento de detección de nódulos y reducir los errores del radiólogo en las radiografías de tórax. 11,12,20-23 Un estudio anterior encontró que la sensibilidad de los rendimientos de detección de nódulos de los algoritmos basados en aprendizaje profundo varió de 69.9% a 82.0% con FPPI de 0.02 a 0.34 en 4 conjuntos de datos de validación externos. Además, todos los médicos mostraron mejores rendimientos de detección de nódulos cuando fueron asistidos por este algoritmo. 11
Cuando probamos el algoritmo DLBS, el modelo con supresión ósea (modelo DLBS) mostró una mayor sensibilidad en comparación con la del modelo original (algoritmo CNN) para la detección de nódulos en radiografías de tórax en conjuntos de datos de validación externa (91,5% [109 de 119] frente a 79,8% [95 de 119]; P < .001; y 92,4% [85 de 92] frente a 80,4% [74 de 92]; P < .001). Además, 3 radiólogos mostraron una mejor sensibilidad de la detección de nódulos cuando fueron asistidos por el algoritmo DLBS (92,1 % [IC 95 %, 86,3–97,3 %] frente a 77,5 % [IC 95 %, 69,9 % -85,2 %]; P < .001), y su FPPI disminuyó de 0.151 a 0.071. Un estudio reciente encontró que el uso del modelo de supresión ósea basado en redes generativas adversariales (GAN) con radiografías de tórax mostró un rendimiento de detección de nódulos comparable a la técnica de energía dual para detectar nódulos pulmonares en radiografías de tórax (área bajo el ROC alternativo de respuesta libre [AUAFROC] 0.958 vs 0.976; P = 35,23). 86 Este resultado sugirió que el modelo de supresión ósea basado en GAN puede mejorar el rendimiento de detección de nódulos pulmonares en radiografías de tórax. Aunque este estudio utilizó un modelo basado en GAN para generar radiografías automáticas de tórax con supresión ósea y utilizamos un modelo codificador-decodificador basado en DCNN, creemos que los resultados del estudio mostraron tendencias similares. Es difícil comparar directamente el rendimiento de detección de nódulos pulmonares del modelo DLBS y otros modelos comercializados. Sin embargo, si nos referimos al resultado de un estudio previo, la sensibilidad del algoritmo de detección de nódulos comercializado (Lunit) fue del 2,95% (IC 77%, 8,94%-6,577%) utilizando un subconjunto de 5485 imágenes de 22 participantes, que es similar al rendimiento de nuestro modelo CNN. <> Por lo tanto, nuestro modelo DLBS podría ser beneficioso para los radiólogos en la detección de nódulos pulmonares en radiografías de tórax.
Limitaciones
Este estudio tiene algunas limitaciones. En primer lugar, dado que el algoritmo se validó utilizando conjuntos de datos retrospectivos, no se puede excluir la posibilidad de sesgo de selección. Se intentó lograr importancia clínica mediante la inclusión de 3 conjuntos de datos diferentes. En segundo lugar, la alta proporción de radiografías anormales a normales difiere de la de la práctica clínica. Como la prevalencia de la enfermedad puede diferir enormemente entre las poblaciones de estudio, nuestros resultados pueden no aplicarse en otros entornos clínicos. En tercer lugar, no se consideraron otras enfermedades pulmonares, como neumonía, enfermedad pulmonar intersticial y derrame pleural. Se justifica la investigación adicional para determinar la aplicabilidad de este modelo sintético con supresión ósea en un estudio prospectivo multiinstitucional.
Conclusiones
Este estudio de modelado analítico de decisión encontró que el modelo DLBS se asoció con una mejor sensibilidad para la detección de nódulos en comparación con el modelo original en radiografías de tórax. Además, estos hallazgos sugieren que los radiólogos pueden mejorar su rendimiento de detección de nódulos cuando son asistidos por un modelo DLBS.