Hace una más de una década y media comenzamos aplicando procesos de optimización de la cirugía programada y la internación para gestionar el quirófano y las camas de internación, esto, al ser un mecanismo de flujo tenso requiere que los actores institucionales entiendan su rol y la tarea en forma anticipada, sin que el paciente sienta que es una producción industrial, sino Lean, sistematizada, segura y de calidad. Primero corresponde citar quienes deben intervenir: admisión, gestión de pacientes, enfermería, medicina interna, camilleros, circulante, anestesiólogos, equipo de cirugía, recuperación post anestésica inmediata y otros equipos. La cirugía la dividimos en cinco bloques: el primero preparación e historia clínica, con evaluación del estado de salud en ese momento. La anestesia tiene que estar en relación con la recuperación, el manejo del dolor, la ventilación y las nauseas. El tiempo operatorio. La recuperación inmediata. la recuperación mediata. Esto constituye un Average Length of Stay, pero en horas. Esos bloques, generan tiempos, actividades, tareas y procedimientos, que se deben normalizar, la recuperación es de una determinada cantidad de horas que el manager de casos debe conocer y efectuar un buen control. Los médicos de cuidados moderados deben saber cuales son los aspectos que habilitan el alta del paciente. Todos deben estar empoderados. Saber, capacitarse, entrenarse y periódicamente revisarlo. trabajar en equipo. El equipo de este Hospital Universitario esta convencido, pero la tensión de la tarea incesante, debe sostenerse en el tiempo con el entendimiento del propósito teleológico de lo que se hace, cuidar al paciente. Pero no declamando, sino gestionando. Esta tarea se convirtió en dos tesis de maestría, ahora espero que pueda convertirse en un Machine Learning. A ello los comprometeremos. Es importante tener el proceso maduro, estable y capaz de responder a las diferentes tensiones.

Introducción y antecedentes
Los sistemas de salud dedican más tiempo a buscar formas de aumentar la eficiencia como resultado de la creciente demanda de una excelente atención médica que esté fácilmente disponible.
Muchos expertos creen que el quirófano (OR), que representa entre el 35% y el 40% de los gastos, es el centro financiero [1].
Una de las mejores formas de caracterizar el OR es la complejidad; La programación complicada de casos quirúrgicos, las altas demandas de los pacientes, las interacciones entre varios profesionales y la imprevisibilidad son solo algunos de los factores que dificultan su manejo [2]. Aunque se han hecho esfuerzos para utilizar conceptos industriales para aumentar la eficiencia, las características únicas del quirófano hacen que esta aplicación sea un desafío [3]. Con la capacidad de analizar grandes cantidades de datos de bloques operativos para producir modelos interpretativos y estimaciones de predicción precisas, los activos podrían usarse de manera más efectiva, el desperdicio de capital podría reducirse y la optimización del sistema podría resultar en un servicio mejor y más seguro [4].
Un subconjunto de la inteligencia artificial (IA) conocido como aprendizaje automático (ML) hace uso de algoritmos que se entrenan iterativamente para aprender de grandes volúmenes de datos sin programación explícita [5,6]. Pueden extraer esquemas, explicarlos y desarrollar modelos de predicción a partir de una variedad de fuentes de datos. Estas máquinas analizan una cantidad gigantesca de datos sin cansarse, perder el enfoque o cometer errores irreflexivos [7].
Incluso en un entorno complejo como la medicina perioperatoria, el uso de herramientas de análisis sólidas, la expansión de la capacidad de almacenamiento y la velocidad a la que se digitalizan los datos de atención médica serán sin duda esenciales para mejorar la atención médica [8].
A pesar del creciente interés en integrar el ML en la gestión de quirófanos, sigue siendo necesario evaluar sistemáticamente el alcance, la eficacia y las limitaciones de las aplicaciones de aprendizaje automático existentes en este campo. Esta revisión sistemática tiene como objetivo sintetizar la evidencia actual sobre el papel del ML en el tratamiento de las quirófanas, evaluando su impacto en la programación, la optimización del flujo de trabajo, la asignación de recursos y la seguridad del paciente. Al identificar tendencias clave, desafíos y direcciones futuras, esta revisión busca proporcionar información sobre el potencial del ML para transformar las operaciones quirúrgicas y mejorar la prestación de atención médica.
Características de los estudios incluidos
Los estudios incluidos en esta revisión sistemática abarcaron varios países y emplearon diferentes diseños de estudio para explorar la aplicación de la IA en ámbitos quirúrgicos. Se analizaron un total de 21 estudios, publicados entre 2019 y 2025. La mayoría de los estudios se realizaron en los Estados Unidos (n = 11), con estudios adicionales de China (n = 02), Australia (n = 02), Canadá (n = 01), Nueva Zelanda (n = 01), Irán (n = 01), Colombia (n = 01, Israel (n = 01) y Taiwán (n = 01). Todos los estudios utilizaron diseños observacionales retrospectivos, excepto un ECA.
Los tamaños de la muestra variaron significativamente, desde tan pequeños como 20 participantes hasta tan grandes como 124528. Los objetivos principales de los estudios giraron en torno al desarrollo y la evaluación de modelos de IA para predecir la duración quirúrgica, la unidad de cuidados postanestésicos (UCPA), la duración de la estancia (LOS) y la optimización de la programación quirúrgica. Se cubrió una amplia gama de procedimientos quirúrgicos, que incluyeron otorrinolaringología, ortopedia, colecistectomía laparoscópica, cirugías ginecológicas y colorrectales, artroplastia total de rodilla y cirugías de columna.
Se emplearon varias metodologías de IA, incluida la regresión logística, clasificadores de vectores de soporte, clasificadores de bosques aleatorios, XGBoost, redes neuronales artificiales, redes neuronales de perceptrón multicapa, algoritmos genéticos y modelos de aprendizaje profundo como Clinical BERT. Las métricas de rendimiento variaron entre los estudios, y algunos informaron valores de AUC que oscilaron entre 0,662 y 0,82, mientras que otros midieron la precisión predictiva utilizando el error cuadrático medio (RMSE), el error absoluto medio (MAE) y las puntuaciones de varianza explicada. En general, las técnicas de aprendizaje por conjuntos, incluidos los clasificadores de bolsas equilibradas y los regresores de bosque aleatorios, demostraron capacidades predictivas superiores.
Varios estudios identificaron predictores clave que influyen en la duración quirúrgica y la duración de la PACU, como el índice de masa corporal (IMC) del paciente, el sexo, la duración planificada del caso quirúrgico y la complejidad del procedimiento. Algunos estudios también examinaron el papel de la IA en la mejora de la eficiencia del quirófano y la reducción de los retrasos, mostrando reducciones significativas en los tiempos de espera de la PACU y una mejor optimización de la programación. Los hallazgos subrayan colectivamente el potencial de la IA para refinar la toma de decisiones perioperatorias, mejorar la eficiencia del flujo de trabajo y mejorar los resultados de los pacientes (Tabla 2).
Tabla 2. Características y resultados clave de los estudios incluidos.
ML: aprendizaje automático; UCPA: unidad de cuidados postanestésicos; LOS: duración de la estancia; O: quirófano; SMOTE: técnica sintética de sobremuestreo de minorías; DCA: análisis de la curva de decisión; LASSO: operador de selección y contracción mínima absoluta; IC: intervalo de confianza; IMC: índice de masa corporal; NLP: procesamiento del lenguaje natural; BERT: representaciones de codificadores bidireccionales de transformadores; RMSE: error cuadrático medio; MAE: error absoluto medio; R²: coeficiente de determinación; MAPE: error porcentual absoluto medio; OT: quirófano; SHAP: explicaciones de aditivos de shapley; ECA: ensayo controlado aleatorizado
| Autor | Año de publicación | País | Diseño del estudio | Tamaño de la muestra | Objetivo | Tipo de procedimiento | Tipo de IA | Rendimiento predictivo | Resultados |
| Gabriel et al. [11] | 2022 | Estados Unidos | Un estudio retrospectivo observacional de un solo centro | 13447 | Desarrollo de modelos de ML que pronostican el siguiente resultado compuesto: el paciente fue dado de alta después de la conclusión del turno de enfermería de la sala de recuperación y la cirugía se completó al final del período de bloqueo del quirófano | Cirugía para los oídos, la nariz y la garganta, así como ortopedia | Regresión logística, clasificador de vectores de soporte, clasificador de bosque aleatorio equilibrado, clasificador de bosque aleatorio, red neuronal feedforward simple y clasificador de bagging equilibrado, SMOTE. | Se desarrolló un modelo para cada uno de los siguientes horarios de inicio: 1 pm, 2 pm, 3 pm y 4 pm. Los resultados mostraron que las estrategias de aprendizaje por conjuntos tuvieron los mejores puntajes de AUC. Con puntajes F1 de 0.78, 0.80, 0.82 y 0.82 para pronosticar los resultados cuando los casos comenzaron a la 1 p. m., 2 p. m., 3 p. m. y 4 p. m., respectivamente, el clasificador de embolsado equilibrado funcionó mejor | Hora de finalización de la cirugía y PACU LOS |
| Tully et al. [12] | 2023 | Estados Unidos | Un estudio retrospectivo observacional de un solo centro | 10928 | Desarrollo de modelos de ML para pronosticar pacientes sometidos a cirugía ambulatoria que pueden requerir una estadía más prolongada en la UCPA y luego modelar la eficacia de reducir la demanda de personal de la UCPA fuera del horario de atención | Procedimientos para cirugía ambulatoria | Clasificador de bosque aleatorio, clasificador de bagging equilibrado, regresor XGBoost, red neuronal feedforward, regresión logística y clasificador de bosque aleatorio equilibrado | La duración prolongada de la estancia en la UCPA se relacionó con el sexo femenino (P<0,0001) y la duración del caso quirúrgico planificado (P<0,0001). Según AUC, la regresión logística sin SMOTE tuvo el peor desempeño con SMOTE (AUC 0.718), mientras que XGBoost tuvo el mejor desempeño con SMOTE (AUC 0.779) | PACU LOS |
| Cao et al. [13] | 2021 | China | Un estudio retrospectivo observacional de un solo centro | 913 | Desarrollar un nomograma predictivo para ayudar a determinar qué pacientes con CL tienen un mayor riesgo de experimentar una estadía prolongada en la UCPA. | Colecistectomía laparoscópica | DCA, gráfico de calibración, índice C y modelo de regresión LASSO | El índice C de este modelo para el conjunto de entrenamiento fue de 0,662 (IC del 95%: 0,603 a 0,721) y para el conjunto de prueba fue de 0,609 (IC del 95%: 0,549 a 0,669), lo que indica una calibración efectiva y una discriminación moderada. El DCA mostró que cuando se eligió un procedimiento en el umbral potencial del 7%, un LOS de PACU extendido, el nomograma era confiable para uso clínico | PACU LOS |
| Schulz et al. [14] | 2020 | Australia | Un estudio retrospectivo observacional de un solo centro | 67325 | Desarrollo de puntos de referencia de LOS ajustados por riesgo o de combinación de casos para las PACU que pueden incorporarse a los sistemas de información contemporáneos | Cada caso en el que un médico usa anestesia | Escalado MinMax | Una gran parte de la variación en la media de la LOS de PACU para anestesistas individuales podría explicarse por este modelo predictivo (r² de Spearman = 0,57). Los anestesistas cayeron dentro de un rango sustancialmente más estrecho cuando se restó la PACU LOS proyectada; El 80% de ellos tenían LOSD medios dentro de una banda de solo 4,3 minutos, en comparación con una dispersión de 24 minutos para la LOS media no corregida | PACU LOS |
| Rozario [15] | 2020 | Canadá | Un estudio retrospectivo observacional de un solo centro | 10553 | Desarrollo de modelos personalizados para maximizar la efectividad de los tiempos de reserva de quirófano | Todo tipo de cirugías | El paquete de software Google AI OR Tools, que es de código abierto, y el lenguaje de programación Python | Además, hubo 26 minutos de retrasos (IC del 95%: 25, 27 minutos), lo que equivalió a una reducción del 80% en los tiempos de espera de admisión a la PACU. El plan optimizado incluía 113 minutos de esperas en la PACU, una reducción del 76%. | Optimización del tiempo para las operaciones |
| Strömblad et al. [16] | 2021 | United States | RCT | 683 | Evaluation of the precision and practical results of applying an ML model to forecast the length of a surgical case | Gynecological and colorectal surgery | Random Forest | When in comparison to the control group, the use of an ML model substantially increased the accuracy of predicting case duration and resulted in shorter patient wait times, no difference in time between the cases (such as turnover or surgeon wait times), and shorter presurgical lengths of stay. In the intervention arm, the MAE SD and mean error SD for colorectal treatment would have decreased from 87 to 70 and 103 to 86, respectively. | Estimation of each planned surgery’s length, expressed in terms of MAE and (arithmetic) mean (SD) error |
| Yeo et al. [17] | 2023 | Estados Unidos | Un estudio retrospectivo observacional de un solo centro | 10021 | Desarrollo de un modelo preciso de predicción del tiempo quirúrgico para personas que se someten a un reemplazo total primario de rodilla | Artroplastia total de rodilla | K-Vecino más cercano, bosque aleatorio y redes neuronales artificiales | Los tres mayores predictores del tiempo quirúrgico quirúrgico fueron un IMC alto (>40 kg/m2), una edad más joven y la falta de uso de ácido tranexámico. La estimación precisa (AUC = 0,82) es crucial para mejorar la eficiencia del quirófano y reconocer a los pacientes en riesgo de un tiempo quirúrgico prolongado | Predicción de la duración de las cirugías |
| Adams et al. [18] | 2023 | Nueva Zelanda | Un estudio retrospectivo observacional de un solo centro | 35000 | Hay dos formas de pronosticar cuánto tiempo durará un procedimiento quirúrgico teniendo en cuenta los datos médicos sobre la cirugía | Operaciones quirúrgicas | Regresión lineal | Para las cirugías que no se realizan con frecuencia, la información ontológica mejora las puntuaciones de probabilidad clasificadas continuas de la predicción del tiempo del procedimiento de 18,4 a 17,1 minutos y de 25,3 a 21,3 minutos | Predicción de la duración de los procedimientos |
| Zhong et al. [19] | 2024 | Estados Unidos | Un estudio retrospectivo observacional de un solo centro | 201 | Uso de ML y NLP para comprender la información radiológica de los pacientes que se someten a la reparación de fracturas de radio como parte de un estudio de prueba de concepto para pronosticar la duración del caso | Reparación interna de la fractura del radio mediante reducción abierta | Modelo de referencia, red neuronal de perceptrón multicapa, regresor de bosque aleatorio, regresión lineal, métricas de rendimiento y validación cruzada de k veces | Con los resultados de Clinical BERT, las redes neuronales feedforward lograron el RMSE promedio más bajo, que fue significativamente (P<0.001) más bajo que el del modelo de referencia. Para el conjunto de prueba, la proporción de casos predichos correctamente, definidos como la duración quirúrgica real que cae dentro del 15% de la duración quirúrgica esperada, aumentó del 26,8% al 58,9% (P<0,001) cuando se utilizó una red neuronal feedforward y BERT clínico | Estimación de la duración de la cirugía |
| Miller et al. [20] | 2023 | Estados Unidos | Un estudio observacional de un solo centro | 50888 | Los procedimientos de ML se mejoran al extender la duración de los casos sobre los métodos actuales que no son de ML para casos que involucran cirugías de cabeza y cuello y otorrinolaringología | Caso de cirugía de otorrinolaringología | XGBoost y CatBoost | En comparación con el modelo XGBoost, el modelo CatBoost mostró una capacidad predictiva superior (P = 0,041). Ambos modelos, sin embargo, superaron al modelo basal (P<0,001), reduciendo el MAE del período operatorio en 9,6 y 8,5 minutos, respectivamente, en comparación con las técnicas actuales | Predicción de la duración de la cirugía |
| Eshghali et al. [21] | 2024 | Irán | Un estudio observacional centrado único | 20 | Creación de un método para que los OT lo utilicen en la programación y reprogramación de pacientes programados y de emergencia | Todas las cirugías | Optimización de enjambre de partículas, Random Forest, CPLEX, índice de congestión de tráfico y algoritmo genético | Los hallazgos indican que el uso de la metodología sugerida puede mejorar el rendimiento de OT en un promedio de aproximadamente 10.5% | Predicción de la duración de la cirugía |
| Gabriel et al. [22] | 2023 | United States | A single-centered retrospective study | 3189 | Using an ensemble learning strategy that could increase the precision of the spine surgery case length schedule | Spine surgery | Random Forest regressors, bagging regressors, XGBoost regressors, and multivariable linear regression | With an RMSE of 92.95 minutes, an MAE of 44.31 minutes, an explained variance score of 0.778, and an R² of 0.770, the XGBoost regressor outperformed the others. BMI, spinal combinations, surgical method, and the number of spine segments involved were the factors that had the greatest impact on the model, according to SHAP evaluation of the XGBoost regression | Case duration Prediction |
| Chu et al. [23] | 2022 | Taiwan | A single-centered observational retrospective study | 124528 | Developing prediction models to analyze the performance of various models and precisely forecast the OR room utilization time | All surgeries | Artificial neural network, Random Forest, XGBoost, and convolution neural network | The results of their best-performing XGBoost model were determined to be 31.6 minutes, 18.71 minutes, 0.71, 28%, and 27% for the metrics of RMSE, MAE, R², MAPE, and the percentage of the estimated result that varied by 10%, respectively. A deviation of 5 to 10 minutes would be more instructive for users in the actual application; therefore, we have included our predicted findings for each department separately | Surgical time prediction |
| Huang et al. [24] | 2022 | China | A single-centered observational study | 15754 | Development of a system for predicting the duration of anesthesia and operation | All surgeries | Perceptron | When the anesthetic emergence duration prediction system and the surgery duration forecast system are combined, the prediction accuracy is more than 0.95. | Prediction of surgical duration and anesthesia emergence length |
| Gabriel et al. [25] | 2022 | United States | A single-centered observational retrospective study | 13447 | Building ML models that forecast the following composite result: the patient is released by the end of the recovery room nurse’s shift, and the surgery is completed by the end of the OR block period | Orthopedics and ENT surgeries | Simple feedforward neural networks, balanced random forest classifiers, support vector classifiers, logistic regression, balanced random forest classifiers, and balanced bag classifiers | AUC values were highest for ensemble learning approaches, according to a model developed for each start time. With F1 scores of 0.78, 0.82, and 0.82 for forecasting the result when cases began at 1 pm, 2 pm, 3 pm, or 4 pm, respectively, the balanced bagging classifier outperformed the others | Time of surgery completion and release from the recovery room |
| Lam et al. [26] | 2022 | United States and Singapore | Double-centered observational retrospective study | 7585 | Assessment of the effectiveness of the ML models and current surgery case duration estimators in predicting the length of operation at two sizable tertiary healthcare facilities | Colorectal surgeries | CatBoos | In terms of RMSE, MAE, MAPE, and the percentage of cases within 80%-120% of the expected actual duration, the basic MA-based forecasts perform better than the predicted duration supplied by the OR schedulers. Model 5 performs best in center-1, with an MAE of 23.986, RMSE of 45.18, and MAPE of 34.40%. In center 2, Model 5 performs the best, with 56.11% of its forecasts falling within +/- 20% of the actual duration. The prediction accuracy of Model 5 is 7.78% greater than that of the MA (within +/-20%). Additionally, Model 5 has the lowest values for MAE and RMSE, at 23.36%, 23.61%, and 38.48%, respectively | Calculating surgery durations |
| Abbou et al. [27] | 2022 | Israel | Estudio retrospectivo observacional de doble centro | 102103 | Mejora de la eficiencia y utilidad de los quirófanos | Todas las cirugías | El modelo XGBoost y el modelo naïve se basan en la duración media de cirugías comparables | Los modelos XGBoost superaron a los modelos ingenuos utilizando varias métricas de evaluación del desempeño: el MAE fue de 21,5 versus 25,4 en el hospital 1 y de 25,3 versus 28,7 en el hospital 2; el RMSE fue de 36,6 versus 49,0 en el hospital 1 y de 40,3 versus 55,0 en el hospital 2; el PVE fue de 66,7 versus 44,0 en el hospital 1 y de 70,0 versus 46,8 en el hospital 2; y el ML2R fue de 0,46 frente a 0,53 en el hospital 1 y de 0,46 frente a 0,49 en el hospital 2. Según las evaluaciones del desempeño hospitalario, los modelos ingenuos y basados en ML difirieron solo ligeramente en el caso de MAPE: 35,15 versus 35,37 en el hospital 1 y 35,09 versus 32,48 en el hospital 2. | Duración prevista de la estancia |
| Hassanzadeh et al. [28] | 2022 | Australia | Un estudio observacional centrado único | 99732 | Uso de datos de quirófanos para mejorar la toma de decisiones para una mejor gestión del quirófano | Cirugías electivas y de emergencia | Sigmoide, poli, SVM, RBF, ventana móvil, regresión, árbol de decisión, bosque aleatorio, regresor de embolsado, regresor de aumento de gradiente, regresor XGBoost y regresor de conjunto | Un aspecto práctico de la gestión de quirófanos es pronosticar la demanda de quirófano, lo que ayuda a los hospitales a brindar servicios de la manera más efectiva y eficiente posible para lograr los mejores resultados de salud posibles. Fueron 90% precisos en sus predicciones | Previsión de la demanda diaria de cirugía por especialidad médica |
| Jiao et al. [29] | 2022 | Estados Unidos | Estudio retrospectivo observacional multicéntrico | 70826 | Creación de un método de ML para predecir la duración quirúrgica que integra continuamente datos preoperatorios e intraoperatorios | Todas las cirugías | Modular ANN | La RNA modular superó a la estrategia bayesiana por un amplio margen, con el menor error de tiempo. Además, la RNA modular superó a la estrategia bayesiana (80%) y a un enfoque ingenuo utilizando el tiempo programado (78%), con la mayor precisión en la detección de OR que superarían las 15:00 | Técnicas para estimar la duración de un procedimiento |
| Martínez et al. [30] | 2021 | Colombia | Estudio observacional monocéntrico | 81248 | Mejorar el deber de programación de operaciones, que requiere estimar la duración del tiempo quirúrgico, maximizaría la eficiencia del quirófano | Operaciones y cirugías de un solo paso | Regresión de vectores de soporte, árboles de regresión, árboles de regresión de bagging y regresión lineal | Utilizando un subconjunto de la base de datos que incluía las nueve especialidades que representaron el 80% de las cirugías, los árboles embolsados produjeron el mejor rendimiento general. Con un RMSE más bajo, a los árboles embolsados también les fue mejor que al enfoque basado en la experiencia | Predicción del tiempo quirúrgico |
| Bartek et al. [31] | 2019 | United States | Single-centered observational retrospective study | 14345 | Building statistical models to enhance case-time duration estimate | All surgeries | XGBoos and Random Forest | With the use of the ML surgeon-specific approach, the ability to forecast cases within 10% increased from 32% using our institution’s standard to 39%. Forty-five percent of the models had accuracy levels higher than or equal to those of the schedulers. Compared to surgeon schedulers, these algorithms significantly outperformed them, with predictions as high as 50% within 10%, versus 32% | Predicting the surgical time |
Risk of Bias Assessment
The risk of bias assessment was conducted using the NOS. Among the 21 studies included, 17 were identified as having a low risk of bias, while four exhibited a moderate risk of bias. A common methodological limitation in some studies was the selection of controls. Additionally, none of the studies reported blinding of controls and patients regarding exposure, which may have introduced measurement bias. Furthermore, the GRADEpro GDT (Evidence Prime, Hamilton, Canada) assessment indicated that the overall quality of evidence in this meta-analysis was low. This was primarily due to the inclusion of observational studies (case-control), which inherently carry a higher risk of bias due to the inability to randomize exposure. Additionally, inconsistencies across studies further contributed to the low quality of evidence (Table 3).
Table 3. Risk of bias assessment using the NOS tool.
La escala de calificación asigna de 7 a 9 estrellas para un riesgo bajo de sesgo, de 4 a 6 estrellas para un riesgo moderado de sesgo y de 0 a 3 estrellas para un alto riesgo de sesgo.
Selección: (1) ¿Si la definición es adecuada? (2) ¿Si la representatividad del caso está bien? (3) Controla la selección (comunitaria u hospitalaria). (4) Controla las definiciones.
Comparabilidad: (1) Comparabilidad de controles y casos según el análisis o diseño.
Exposición: (1) Determinación de la exposición. (2) El mismo método para los controles y casos de cálculo. (3) Tasa de falta de respuesta.
Se puede otorgar una sola estrella (★) a un estudio por cada elemento numerado en las categorías de exhibición y selección. Para comparar, no se pueden otorgar más de dos estrellas (★★). El guión (-) indica que no se dieron estrellas al estudio.
NOS: Escala de Newcastle-Ottawa
| Estudiar | Selección | Comparabilidad | Exposición | |||||
| 1 | 2 | 3 | 4 | 1 | 1 | 2 | 3 | |
| Gabriel et al. [11] | ★ | ★ | ★ | – | ★★ | ★ | ★ | – |
| Tully et al. [12] | ★ | ★ | – | – | ★★ | ★ | – | – |
| Cao et al. [13] | ★ | ★ | – | ★ | ★ | ★ | ★ | – |
| Schulz et al. [14] | ★ | ★ | – | – | ★★ | ★ | ★ | – |
| Rozario [15] | ★ | ★ | ★ | – | ★ | – | ★ | ★ |
| Strömblad et al. [16] | ★ | ★ | – | – | ★★ | ★ | ★ | ★ |
| Yeo et al. [17] | ★ | ★ | ★ | – | ★★ | ★ | ★ | ★ |
| Adams et al. [18] | ★ | ★ | – | – | ★★ | ★ | ★ | ★ |
| Zhong et al. [19] | ★ | ★ | ★ | – | ★★ | ★ | ★ | ★ |
| Miller et al. [20] | ★ | ★ | ★ | – | ★ | ★ | ★ | ★ |
| Eshghali et al. [21] | ★ | ★ | ★ | – | ★★ | ★ | – | ★ |
| Gabriel et al. [22] | ★ | ★ | – | – | ★★ | ★ | ★ | ★ |
| Chu et al. [23] | ★ | ★ | ★ | – | ★ | ★ | ★ | ★ |
| Huang et al. [24] | ★ | ★ | – | – | ★★ | ★ | ★ | ★ |
| Gabriel et al. [25] | ★ | ★ | ★ | – | ★ | ★ | ★ | ★ |
| Lam et al. [26] | ★ | ★ | ★ | – | ★★ | ★ | – | ★ |
| Abbou et al. [27] | ★ | ★ | – | – | ★★ | ★ | ★ | ★ |
| Hassanzadeh et al. [28] | ★ | ★ | ★ | – | ★ | ★ | ★ | ★ |
| Jiao et al. [29] | ★ | ★ | – | – | ★★ | ★ | ★ | ★ |
| Martínez et al. [30] | ★ | ★ | ★ | – | ★ | ★ | ★ | ★ |
| Bartek et al. [31] | ★ | ★ | – | – | ★★ | ★ | ★ | ★ |
Discusión
Los hallazgos de esta revisión sistemática destacan el papel creciente del ML en la optimización del manejo del quirófano, particularmente en la predicción de la duración quirúrgica, la LOS de la PACU y la eficiencia de la programación. Los estudios incluidos demuestran colectivamente que los modelos de ML, aprovechando una variedad de metodologías, pueden mejorar los procesos de toma de decisiones, optimizar los flujos de trabajo de quirófano y mejorar los resultados de los pacientes. Estos resultados se alinean con la literatura más amplia que enfatiza el impacto transformador de la IA en la atención perioperatoria [32-34].
Predecir la duración de la planificación quirúrgica fue el enfoque de 17 de los 21 estudios incluidos. Este hallazgo enfatiza la importancia de la estimación precisa de la duración del caso quirúrgico para el manejo eficiente del quirófano. Es un problema complicado y multidimensional que tiene un efecto significativo en la asignación de recursos, la programación de quirófanos y la eficacia operativa general. El enfoque principal de una revisión anterior fueron los resultados alentadores de un algoritmo patentado llamado Leap Rail® [3,35]. Un estudio reciente muestra una imagen más matizada, incluso si demostró una mejora en la precisión de la predicción en comparación con los métodos anteriores [30]. La aplicación de modelos de ML se ha examinado con mayor detalle en investigaciones más recientes, como la realizada por Bartek et al., que destaca la importancia de los modelos específicos del cirujano [31].
Los modelos recientes de ML funcionan mejor que los adaptados a un servicio en particular y mejoran en gran medida la precisión del pronóstico de tiempo de caso, lo que tiene importantes ventajas para la administración de quirófano [31].
Un estudio reciente muestra que XGBoost supera a otros métodos, como la regresión lineal y el modelo de bosque aleatorio, en modelos de ML [36]. Una desviación significativa del énfasis de la revisión anterior en el leap rail® es la demostración de las capacidades predictivas más sólidas de XGBoost. Esto demuestra la rapidez con la que se está desarrollando la tecnología ML y cómo se puede utilizar para mejorar los pronósticos de duración de los casos quirúrgicos. Sin embargo, es crucial recordar que varios resultados pueden requerir varias técnicas de ML [37].
El ahorro potencial de costos relacionado con las estimaciones precisas de la duración de los casos quirúrgicos en cirugía robótica fue otra conclusión importante de la revisión anterior [3].
Nuestra revisión, sin embargo, ofrece nuevas perspectivas. La aplicación de ANN modular para estimar la duración restante de la cirugía fue presentada por primera vez por Jiao et al. [29]. Las redes neuronales con memoria externa se denominan ANN modulares [38]. Les va bien en actividades que requieren razonamiento secuencial y contexto, lo que los califica para varias aplicaciones clínicas [28].
El estudio demostró la resiliencia y versatilidad de su estrategia mediante el uso de registros anestésicos de una variedad de poblaciones quirúrgicas y tipos de instalaciones. La RNA modular tiene el potencial de reducir costos y mejorar la eficiencia operativa porque superó continuamente las técnicas estadísticas bayesianas, especialmente en el cuartil final de la cirugía [5]. Además, un estudio evaluó la transferibilidad y generalización del modelo modular de RNA [27].
Se descubrió que la optimización de un modelo desarrollado en sistemas adyacentes más grandes podría ayudar incluso a los sistemas de salud con volúmenes operativos más bajos. Además, indicó áreas de mejora al resaltar la escasez de datos vitales en los registros de anestesia durante fases quirúrgicas específicas [11,26].
Este trabajo destaca el rápido desarrollo de algoritmos de ML y su uso en situaciones quirúrgicas reales.
Este es también el caso de los autocodificadores variacionales (VAE), modelos generativos que están destinados a aprender representaciones latentes de datos [39]. Incluyen un decodificador y un codificador. En un espacio latente, por ejemplo, el codificador convierte los datos de entrada en una distribución de probabilidad y el decodificador usa muestras en este espacio latente para reconstruir los datos.
La conexión de modelos de vanguardia, como VAE y RNA modulares, a un contexto clínico sugiere que estos modelos pueden ayudar a avanzar en la atención médica personalizada al aprender ilustraciones únicas para cada paciente, facilitar regímenes de tratamiento personalizados y cumplir con los requisitos clínicos, mejorar el diagnóstico y los resultados de los pacientes, o acelerar los procedimientos médicos [17,19,23,24].
El ECA de un solo centro realizado por Strömblad et al. [16] proporcionó información adicional. En contraste con el enfoque actual de flujo de programación, investigaron la precisión de utilizar un modelo de ML para pronosticar la duración de los casos quirúrgicos. En este estudio se destacaron las ventajas de un método de predicción exhaustivo y basado en datos, lo que condujo a una notable disminución de MAE y mejoró la precisión del pronóstico [15]. Significativamente, esta caída en MAE resultó en tiempos de espera más cortos para los pacientes sin afectar negativamente los tiempos de espera para las cirugías o la efectividad operativa, lo que sugiere un delicado equilibrio entre la efectividad y los resultados del paciente. Hasta donde sabemos, este estudio es el primer y único ECA sobre el tema, lo que marca un hito importante [16].
Los resultados de esta revisión son consistentes con investigaciones previas que demuestran la utilidad del ML en contextos perioperatorios.
Por ejemplo, Gabriel et al. (2022) encontraron que los modelos de aprendizaje por conjunto, incluidos los clasificadores de bolsas equilibradas, exhibieron una alta precisión predictiva (AUC de hasta 0,82) en el pronóstico de PACU LOS y los tiempos de finalización de la cirugía [11].
Este hallazgo se alinea con estudios similares que han identificado técnicas de conjunto, particularmente clasificadores de bosque aleatorios, como predictores robustos en aplicaciones clínicas.
Una revisión sistemática de Jiao et al. (2023) sobre predicciones quirúrgicas impulsadas por IA también señaló que los métodos de conjunto tienden a superar a los modelos individuales debido a su capacidad para mitigar el sesgo y la varianza, lo que refuerza aún más la eficacia de dichos enfoques [29].
Además, estudios como Tully et al. identificaron predictores clave que influyen en la LOS de la PACU, incluido el sexo y la duración planificada del caso quirúrgico, lo que concuerda con investigaciones anteriores que destacan los factores específicos del paciente y del procedimiento como determinantes críticos de los tiempos de recuperación postoperatoria [12]. De manera similar, Strömblad et al. informaron que los modelos de ML mejoraron significativamente las predicciones de duración de los casos, lo que redujo los tiempos de espera de los pacientes y mejoró la precisión de la programación [16]. Estos hallazgos resuenan con los de Chan et al., quienes demostraron que los datos ontológicos mejorados por ML mejoraron las predicciones de duración quirúrgica, solidificando aún más el papel de la analítica impulsada por IA en la planificación de procedimientos [40].
Los estudios revisados subrayan el potencial del ML para optimizar la eficiencia del quirófano a través del modelado predictivo. Varios estudios demostraron que los modelos de ML pueden pronosticar con precisión la duración quirúrgica, lo cual es crucial para reducir ineficiencias como el tiempo de inactividad del quirófano, los retrasos y los conflictos de programación. Por ejemplo, Yeo et al. (2023) informaron que un IMC alto, una edad más joven y la ausencia de ácido tranexámico eran predictores clave de tiempos quirúrgicos prolongados [17]. Este hallazgo sugiere que la integración de variables específicas del paciente en modelos predictivos puede generar información clínicamente significativa, lo que en última instancia mejora la asignación de recursos y la planificación perioperatoria.
Además, el uso de ML para reducir los tiempos de espera de la PACU presenta un caso convincente para la gestión hospitalaria impulsada por IA. Rozario observó que las optimizaciones de programación de quirófano basadas en IA dieron como resultado una reducción del 80% en los tiempos de espera de admisión a la PACU [15]. Esto respalda el creciente cuerpo de evidencia que aboga por sistemas de gestión de flujo de trabajo mejorados por IA para aliviar los cuellos de botella en la atención perioperatoria.
A pesar de estos resultados prometedores, la variabilidad en el rendimiento del modelo de ML entre los estudios justifica una consideración cuidadosa. Mientras que algunos estudios lograron una alta precisión predictiva (p. ej., AUC >0.80 en Gabriel et al. [11] y Yeo et al. [17]), otros informaron capacidades predictivas moderadas (p. ej., Cao et al. [13] con un índice C de 0.662). Tales discrepancias pueden deberse a diferencias en los tamaños de muestra, metodologías de selección de características o algoritmos de ML utilizados. Además, la dependencia de datos retrospectivos en la mayoría de los estudios limita la generalización de los hallazgos, lo que destaca la necesidad de una validación prospectiva y ensayos de implementación en tiempo real.
Limitación
Esta revisión tiene algunas limitaciones, incluido el posible sesgo de publicación, ya que solo se consideraron los artículos en inglés. Las diferencias en la cobertura de la base de datos también pueden afectar la exhaustividad, a pesar de los esfuerzos por minimizar esto mediante una estrategia de búsqueda rigurosa. La diversidad de entornos y algoritmos complica las conclusiones definitivas sobre el modelo predictivo óptimo para las complicaciones perioperatorias. La falta de estandarización entre los estudios dificultó el metanálisis, y la mayoría de los modelos carecían de validación externa. Si bien AUC es una métrica de evaluación útil, se deben reconocer sus limitaciones en conjuntos de datos desequilibrados. Garantizar datos de alta calidad es crucial para las aplicaciones de IA en la investigación, la práctica clínica y los sistemas de atención médica, lo que requiere una supervisión cuidadosa desde la recopilación de datos hasta la selección del modelo.
Conclusiones
Esta revisión sistemática destaca el papel cada vez mayor del ML en la optimización del manejo del quirófano, demostrando su potencial para mejorar la eficiencia, la rentabilidad y la seguridad del paciente. Los modelos impulsados por IA han demostrado ser prometedores para predecir la duración de las cirugías con mayor precisión, mejorar la asignación de recursos y minimizar las cancelaciones de casos, agilizando así la coordinación del flujo de trabajo y reduciendo las ineficiencias operativas.
Estos avances no solo mejoran la productividad del hospital, sino que también contribuyen a mejorar las experiencias de los pacientes al minimizar las demoras y optimizar la atención perioperatoria. Sin embargo, a pesar de estos desarrollos prometedores, se deben abordar varios desafíos antes de que la IA pueda integrarse sin problemas en la planificación quirúrgica y la toma de decisiones de rutina.
El acceso limitado a conjuntos de datos estandarizados de alta calidad sigue siendo un obstáculo importante, al igual que garantizar la privacidad y seguridad de los datos de conformidad con las regulaciones de atención médica. Además, la complejidad de validar algoritmos de IA en diversos entornos clínicos plantea desafíos importantes, que requieren pruebas exhaustivas y validación externa para garantizar la confiabilidad y la generalización.
Las consideraciones éticas, como la transparencia algorítmica y los posibles sesgos en los modelos de IA, también deben gestionarse cuidadosamente para mantener la confianza y la equidad en la prestación de atención médica. A medida que la IA continúa evolucionando, su integración en los flujos de trabajo clínicos requerirá un equilibrio entre la innovación tecnológica y la aplicabilidad en el mundo real. El refinamiento de las aplicaciones de IA puede ralentizar las tasas de publicación, ya que los investigadores priorizan la solidez sobre los avances rápidos, enfatizando la necesidad de estudios reproducibles y de alta calidad.
En el futuro, la colaboración interdisciplinaria continua entre científicos de datos, profesionales de la salud y formuladores de políticas será crucial para superar estas barreras. Al fomentar la innovación mientras se abordan los desafíos, la IA tiene el potencial de revolucionar la gestión de quirófanos, mejorando en última instancia la prestación de atención médica, optimizando la utilización de recursos y mejorando los resultados de los pacientes.