Impacto de la IA en la Atención Médica: Estudio ESSENCE

Autora : Fabienne Cotte , MD https://orcid.org/0000-0002-2898-422XFilipa Dias Lourenço , ET AL

Abstracto

Fondo

Las herramientas digitales de acceso directo, impulsadas por inteligencia artificial (IA), se utilizan cada vez más para orientar a los pacientes hacia la atención adecuada y aliviar la presión sobre el sistema sanitario. Sin embargo, la mayoría de las evaluaciones ofrecen información limitada sobre la intención declarada del paciente, su comportamiento en la vida real o la idoneidad de la atención.

Métodos

El estudio ESSENCE (E-Health Self–Symptom Assessment as a Front Door and Facilitator of Care) fue una evaluación prospectiva de mejora de la calidad en un entorno real, integrada en la mayor red privada de atención médica de Portugal (CUF). Los adultos que utilizaron el sistema de apoyo a la toma de decisiones diagnósticas Ada Health a través de la aplicación myCUF informaron sobre sus intenciones de atención antes y después de la evaluación de síntomas. Se realizó un seguimiento del comportamiento real mediante registros electrónicos de salud y encuestas. Paneles de médicos evaluaron retrospectivamente la idoneidad de la atención prevista y observada.

Resultados

Se inscribieron un total de 1470 adultos (≥18 años de edad; edad media, 38,5 años; 57,7% mujeres). De los 1338 participantes con intenciones pre y post-evaluación, el 33,0% revisó su nivel de atención planificado inmediatamente después de la evaluación. La incertidumbre disminuyó del 12,6% al 5,0% (P<0,001). Entre los 721 participantes con comportamiento observado, el 59,1% cambió su vía de atención: el 28,9% desescaló, el 17,2% intensificó y el 13,0% resolvió la incertidumbre previa. Las consultas de atención primaria aumentaron del 16,3% al 42,1% (P<0,001), mientras que las visitas a especialistas disminuyeron del 49,7% al 29,8% (P<0,001). Entre los participantes que no presentaban emergencias y tenían intenciones de evaluación previa y documentación clínica suficiente (n=382), la atención adecuada aumentó del 29,8% antes de la evaluación al 64,4% después de la evaluación conductual (intervalo de confianza del 95%, 27,8 a 41,4; P<0,001). De los 96 participantes que planificaron una visita al servicio de urgencias, el 38,5% optó por una atención de menor gravedad tras la evaluación. En el subgrupo con seguimiento evaluado por el médico, se consideró que el 93% (27 de 29; IC del 95%, 78,0 a 98,1%) había evitado adecuadamente una visita innecesaria al servicio de urgencias.

Conclusiones

La integración de opciones de evaluación de síntomas y seguimiento con apoyo de IA en una plataforma digital de atención primaria se asoció con cambios en las intenciones y comportamientos de los pacientes, reduciendo la incertidumbre y promoviendo un uso adecuado de los servicios de salud. Estos hallazgos sugieren que los sistemas de apoyo a la toma de decisiones diagnósticas influyen en la toma de decisiones en la práctica clínica, además de generar recomendaciones precisas, lo que justifica una evaluación más exhaustiva en diversos entornos sanitarios. (Financiado por el Ministerio Federal de Investigación, Tecnología y Espacio [Bundesministerium für Forschung, Technologie und Raumfahrt]).

Introducción

Los sistemas de salud de todo el mundo se enfrentan a una presión creciente debido al aumento de la carga de enfermedades crónicas, el envejecimiento de la población y la escasez de profesionales sanitarios, lo que sobrecarga los recursos, incrementa los tiempos de espera y limita el acceso a una atención oportuna.<sup> 1</sup> Se necesitan soluciones escalables que orienten a los pacientes hacia la atención adecuada en el momento oportuno, sin comprometer la calidad ni la seguridad. Una de estas soluciones es la puerta de entrada digital (DFD, por sus siglas en inglés): puntos de acceso digitales a través de los cuales los pacientes acceden a los servicios de salud. Estas herramientas —que incluyen evaluaciones de síntomas, triaje en línea, reserva de citas y consultas remotas— están diseñadas para agilizar el acceso, reducir la demanda innecesaria y guiar a los usuarios hacia el entorno de atención más apropiado.² 

Fundamentalmente , tienen el potencial de ayudar a los pacientes en uno de los aspectos más complejos de la atención médica: decidir si, cuándo, dónde y con qué urgencia buscar atención.La evidencia muestra que este proceso de toma de decisiones está lleno de incertidumbre. La precisión del autotriaje sigue siendo moderada (47%–62%), con sobreestimación frecuente de la urgencia y ocasionalmente falta de reconocimiento de afecciones graves. 3 , 4 Aunque la mayoría de las personas identifican correctamente las emergencias (82%), el sobretriaje ocurre en el 65% de los casos, y el 8% de las situaciones críticas se pasan por alto por completo. 5 Como se destacó durante la pandemia de la enfermedad por coronavirus 2019, la atención tardía o mal dirigida puede conducir a peores resultados de salud. 6 En respuesta, los sistemas de atención médica están incorporando cada vez más la evaluación de síntomas y la navegación basadas en inteligencia artificial (IA) en plataformas orientadas al paciente. Estas integraciones tienen como objetivo reducir la incertidumbre, frenar la demanda innecesaria y mejorar el acceso oportuno a la atención. Sin embargo, la mayoría de las evaluaciones de herramientas de triaje digital se centran exclusivamente en la precisión de los resultados o la intención declarada, ofreciendo una visión limitada del comportamiento real del paciente. Por ejemplo, un estudio en Portugal informó que el 22,8 % de los usuarios revisaron sus planes de atención tras el triaje asistido por IA, pero no evaluó si los pacientes cumplieron con su intención ni si la atención resultante fue apropiada.⁷ 

De manera similar, una evaluación en Australia describió reducciones en el sobretriaje en comparación con el sistema anterior pero no examinó el cumplimiento de las recomendaciones ni los resultados posteriores.⁸ Estos enfoques no tienen en cuenta las formas complejas y a menudo no lineales en que los pacientes interpretan la información y toman decisiones en entornos reales. Los usuarios suelen estar expuestos a más de una recomendación de triaje. Reciben una combinación de consejos específicos sobre su condición, información explicativa y opciones de seguimiento, todo lo cual, junto con otros factores contextuales, influye en sus decisiones. Comprender esta interacción requiere una evaluación que haga un seguimiento del comportamiento real y la pertinencia clínica. Para abordar esta brecha, realizamos el estudio ESSENCE (Evaluación de Síntomas y Autodiagnóstico en Salud Electrónica como Puerta de Entrada y Facilitador de la Atención). Integrado en la red privada de salud CUF de Portugal, el estudio evaluó cómo la integración del sistema de apoyo a la toma de decisiones diagnósticas (DDSS) de Ada Health en un DFD influyó en el comportamiento del paciente, el uso de los servicios y la adecuación de la atención en un entorno real. Este artículo se centra en el impacto conductual de la integración de Ada Health con CUF; los hallazgos relacionados con el flujo de trabajo clínico y las perspectivas de los médicos se presentarán por separado.

Métodos

Diseño del estudio

Este estudio prospectivo y observacional de mejora de la calidad evaluó el impacto real del Sistema de Apoyo a la Detección de Síntomas (DDSS) de Ada Health en la búsqueda de atención médica dentro de la red privada de salud CUF. Los adultos (mayores de 18 años) que utilizaban la aplicación myCUF en portugués para completar una autoevaluación completa de síntomas fueron elegibles. Para participar, se requirió completar las preguntas previas y posteriores a la evaluación, dar el consentimiento informado y compartir el informe con un profesional de la salud. Se les indicó a los participantes que no utilizaran el DDSS en situaciones de emergencia. El período de inscripción se extendió desde noviembre de 2023 hasta octubre de 2024.

Recopilación de datos

Los participantes informaron sobre su intención de buscar atención médica antes de la evaluación y nuevamente después de revisar el informe de síntomas, que enumeraba las posibles afecciones con calificaciones de probabilidad y recomendaciones de atención para cada afección y el caso general. Cada afección incluía un botón «¿Qué sigue?» que enlazaba con opciones de servicio de seguimiento (por ejemplo, reservar una teleconsulta), el cual solo se mostraba después de que se completara la pregunta sobre la intención posterior a la evaluación.La conducta de búsqueda de atención médica se recopiló en dos etapas. Primero, se recuperaron del historial clínico electrónico (HCE) todos los encuentros con centros de atención médica que ocurrieron dentro de los 14 días posteriores a la finalización de la evaluación de síntomas y se clasificaron como conducta observada. Segundo, para los participantes sin un encuentro documentado con un centro de atención médica en este período de 14 días, se envió una encuesta por correo electrónico entre el día 14 y el día 28 para registrar el uso de atención médica autoinformado fuera de los centros de atención médica o la gestión domiciliaria. Para los análisis principales, la conducta se consideró «conocida» si se confirmaba a través del historial clínico electrónico de 14 días o mediante la respuesta a la encuesta, utilizando las mismas categorías de atención que en las preguntas de intención. Para las consultas de CUF, se extrajeron datos adicionales (por ejemplo, notas clínicas, códigos de la Clasificación Estadística Internacional de Enfermedades y Problemas de Salud Relacionados , Décima Revisión). Si el participante fue atendido por un médico que participaba en el estudio en uno de los tres centros CUF participantes, se completó una encuesta para evaluar el informe de síntomas inmediatamente después de la consulta o posteriormente si fue necesario. Al finalizar el estudio, un panel de tres médicos sénior de CUF que no participaron en el tratamiento de los pacientes evaluados en el estudio revisaron cada visita para determinar el nivel de atención más apropiado (es decir, autocuidado, atención primaria, atención especializada o atención de urgencias). Los evaluadores desconocían la recomendación del DDSS y las intenciones de los participantes antes y después de la evaluación, y no tuvieron acceso a los resultados posteriores (por ejemplo, diagnósticos, tratamientos, visitas de seguimiento) al realizar sus calificaciones de adecuación. La adecuación de la visita al servicio de urgencias (SU) se evaluó por separado de las visitas fuera del SU utilizando un marco de tres partes que evaluaba la adecuación clínica, el potencial de evaluación de atención primaria y el tipo de uso de recursos en el SU. 9 Las visitas se clasificaron como apropiadas si estaban clínicamente justificadas o requerían intervenciones específicas del SU.Para evaluar posibles señales de seguridad, también revisamos la utilización posterior de la atención de urgencia para los usuarios que redujeron su intención inicial de atención de emergencia y para aquellos que acudieron directamente al servicio de urgencias, incluidas las visitas repetidas al servicio de urgencias en un plazo de 72 horas y cualquier hospitalización registrada en la historia clínica electrónica de CUF en un plazo de 14 días.

Análisis de datos

Todos los análisis estadísticos se realizaron con el software R (versión 4.2.1). Se utilizaron estadísticas descriptivas para resumir las características demográficas de los participantes, las intenciones de atención, las conductas observadas y las recomendaciones del DDSS. Las variables continuas se presentan como medias (± desviación estándar) o medianas (rango intercuartílico), y las variables categóricas como frecuencias y porcentajes. Las transiciones de atención a lo largo del tiempo (es decir, evaluación previa, evaluación posterior y conducta observada) se visualizaron mediante diagramas de Sankey.Para evaluar si la distribución general de los niveles de atención varió a lo largo del tiempo, se analizaron comparaciones pareadas mediante la prueba de homogeneidad marginal de Stuart-Maxwell. La concordancia entre las selecciones de atención en diferentes momentos se evaluó mediante el coeficiente kappa de Cohen con intervalos de confianza del 95 % y se interpretó según las categorías de fuerza convencionales.Para describir con mayor detalle el movimiento direccional entre categorías, se aplicó la prueba de McNemar a proporciones pareadas. Estas pruebas se utilizaron de forma descriptiva para ilustrar cambios específicos de categoría. Las asociaciones entre las recomendaciones del DDSS y el comportamiento observado se analizaron mediante la prueba de chi-cuadrado de Pearson. El acuerdo entre clasificadores se estudió mediante la prueba kappa de Fleiss.Se realizó una regresión logística multivariable para examinar los predictores de un comportamiento apropiado en el mundo real. La variable dependiente fue la adecuación del comportamiento real (apropiado vs. inapropiado). Las variables independientes se seleccionaron a priori con base en la relevancia teórica: adecuación de la evaluación previa (S [sí]/N [no]/incierto), adecuación del consejo del caso DDSS (S/N), adecuación de la evaluación posterior (S/N/incierto), edad (continua) y sexo (femenino/masculino). Las variables categóricas se codificaron como variables ficticias. Variables como el día de la semana, el número de síntomas y el sitio no se incluyeron debido a una alta proporción de datos faltantes o una relevancia clínica limitada. Se utilizó la estimación de máxima verosimilitud con un alfa igual a 0,05. Se aplicó la prueba de Hosmer-Lemeshow para evaluar el ajuste del modelo (P>0,05 indica un ajuste adecuado).Se adoptó un nivel de significancia del 5% para todos los análisis estadísticos.

Generalización

Para evaluar los efectos de selección, comparamos las intenciones de atención y las características de los usuarios entre la población de estudio y todos los demás usuarios del DDSS que completaron una evaluación dentro de la misma integración (excluyendo las respuestas omitidas). Dentro de la población de estudio, examinamos las diferencias entre los participantes con y sin datos de seguimiento, incluyendo datos demográficos, nivel de atención recomendado por el DDSS y cambios en la atención prevista.

Gestión de datos y ética

Los datos se almacenaron de forma segura en un sistema electrónico validado (Teamscope) mediante identificadores únicos. La aprobación ética fue otorgada por el Comité Nacional de Ética para la Investigación Clínica (Comissão de Ética para a Investigação Clínica) (n.º 2204JJ351 y n.º 2309JJ660). El estudio se registró en ClinicalTrials.gov ( NCT06846957 ) y cumplió con la Declaración de Helsinki y las directrices de la Organización Internacional de Normalización (ISO) 14155:2020. Se siguieron las directrices STROBE (Fortalecimiento de la Notificación de Estudios Observacionales en Epidemiología) en todo momento.

Resultados

Datos demográficos de los participantes

El estudio incluyó a 1470 participantes, con una edad media de 38,5 años (±12,5); el 57,7% (848 de 1470) eran mujeres. Se determinó el comportamiento de búsqueda de atención para 721 participantes, de los cuales 529 (73%) fueron validados a través de los registros electrónicos de salud y 192 (27%) a través de las respuestas a la encuesta de seguimiento. Las distribuciones completas de datos demográficos, síntomas y recomendaciones del DDSS se muestran en la Tabla 1. El proceso de selección e inclusión de participantes se describe en un diagrama de flujo STROBE ( Fig. 1 ).Figura 1

Fortalecimiento de la presentación de informes de estudios observacionales en epidemiología: Diagrama de flujo de inclusión.

Tabla 1.

Datos demográficos de los participantes (N=1470).

Intenciones de los participantes (antes y después de la evaluación)

Las intenciones de los participantes antes y después de la evaluación se resumen en las Tablas 2 a 4 y en la Tabla S1 del Apéndice Suplementario , y se visualizan en la Figura 2. En la cohorte emparejada (n=1338), la incertidumbre disminuyó sustancialmente del 12,6% al 5,0% (McNemar χ 2 =57,14; P<0,0001), lo que corresponde a un cambio de −7,54 puntos porcentuales (intervalo de confianza del 95% [IC], −9,52 a −5,56). La intención de consultar a un especialista aumentó del 53,0% al 57,3% (+4,33 puntos porcentuales; IC del 95%, 2,66 a 6,00; P=0,0003), y la intención de consultar a un médico de atención primaria (PCP) aumentó del 17,8% al 19,7% (+1,87 puntos porcentuales; IC del 95%, 0,42 a 3,32; P=0,082). La proporción de pacientes que tenían la intención de buscar atención de emergencia (del 9,4% al 10,8%; +1,35 puntos porcentuales; IC del 95%, 0,13 a 2,57; P=0,07) o de controlar los síntomas en casa (del 7,2% al 7,2%; 0,00 puntos porcentuales; IC del 95%, -1,39 a 1,39; P=1,00) no mostró cambios significativos. En general, solo el 67,0% (897 de 1338) de los participantes mantuvieron su intención original.Figura 2

Transiciones en las intenciones de atención desde la evaluación previa hasta la evaluación posterior.

Tabla 2.

Cambios en las intenciones de atención antes y después de la evaluación de los síntomas (cohorte pareada, N=1338).

Tabla 3.

Cambios en las intenciones de atención antes de la evaluación de los síntomas y el comportamiento real posterior (cohorte pareada, N=717).

Tabla 4.

Resultados de la transición en función de las intenciones y el comportamiento observado antes y después de la evaluación.

El comportamiento de los participantes en comparación con sus intenciones previas a la evaluación

La distribución general del nivel de atención cambió significativamente de las intenciones de la evaluación previa al comportamiento observado (P<0,001), debido a una marcada reducción en la atención especializada y un aumento en las consultas de atención primaria. Entre los 717 participantes para quienes se disponía tanto de las intenciones de la evaluación previa como del comportamiento observado, solo el 41 % (294 de 717) siguió con el nivel de atención que había planeado inicialmente. Entre los participantes, el 17,2 % (123 de 717) escaló a una opción de mayor urgencia, mientras que el 28,9 % (207 de 716) redujo la escala a una de menor urgencia, lo que indica un cambio neto hacia una atención de menor gravedad ( Tablas 3 y 4 ). El uso de la atención primaria aumentó del 16,3 % (117 de 717) al 42,1 % (302 de 717) (IC del 95 %, 22,5 a 29,1; P<0,0001), mientras que las visitas a especialistas disminuyeron del 49,7 % (356 de 717) al 29,8 % (214 de 717) (IC del 95 %, -23,0 a -16,6; P<0,0001). El autocuidado se mantuvo estable (7,7% a 6,8%; IC del 95%, -3,1 a 1,5; P=0,54) y el uso de atención de emergencia aumentó del 13,4% (96 de 717) al 21,2% (152 de 717) (IC del 95%, 5,2 a 10,4; P<0,0001; Fig. 3 ).Figura 3

Transiciones entre las intenciones previas a la evaluación y el comportamiento real.

La concordancia entre las opciones de atención en los distintos momentos fue moderada para las intenciones previas y posteriores a la evaluación (κ=0,52; IC del 95%, 0,48 a 0,56) y aceptable tanto para la evaluación previa como para el comportamiento (κ=0,21; IC del 95%, 0,16 a 0,26) y para la evaluación posterior y el comportamiento (κ=0,23; IC del 95%, 0,18 a 0,29). La intención previa a la evaluación fue el único factor estadísticamente significativo que determinó si los usuarios mantuvieron o revisaron sus planes de atención (P<0,001) (Tabla S5). El nivel de asesoramiento del DDSS se asoció con el comportamiento (χ² = 25,44; grados de libertad = 4; P<0,001).

Adecuación de los planes para buscar atención médica y comportamiento observado

Se dispuso de calificaciones de adecuación antes y después de la evaluación de síntomas para 363 participantes con datos pareados completos ( Tabla 5 ). La proporción de atención planificada apropiada aumentó del 30,0% al 35,3%, una mejora estadísticamente significativa de +5,23 puntos porcentuales (IC del 95%, 0,88 a 9,59; P=0,026). La proporción de planes inapropiados se mantuvo estable (59,2% frente a 59,5%, +0,28 puntos porcentuales; IC del 95%, -4,46 a 5,01; P=1,00), mientras que la proporción de participantes inseguros sobre cómo manejar sus síntomas disminuyó notablemente, del 10,7% al 5,2% (-5,51 puntos porcentuales; IC del 95%, -9,01 a -2,01; P=0,0034).Tabla 5.

Cambio en la adecuación de los planes de atención antes y después de la evaluación de los síntomas (cohorte pareada, N=363).

La adecuación de la atención prevista frente a la atención real recibida se comparó en 382 participantes con observaciones pareadas completas ( 

Tabla 6 ). La proporción de usuarios cuyo comportamiento se calificó como clínicamente apropiado fue sustancialmente mayor que la proporción cuyos planes iniciales fueron apropiados: 29,8% en la preevaluación frente a 64,4% en el punto de atención (+34,55 puntos porcentuales; IC del 95%, 27,75 a 41,36; P<0,0001). Por el contrario, las intenciones inapropiadas disminuyeron del 59,2% al 35,6% (−23,56 puntos porcentuales; IC del 95%, −30,05 a −17,07; P<0,0001). Entre los participantes inicialmente inseguros, el 69% (29 de 42; IC del 95%, 54,6 a 80,8) buscó la atención apropiada. En general, el 77,0 % (296 de 385; IC del 95 %, 72,5 a 81,0) de los casos recibieron el asesoramiento de urgencia más apropiado. No se pudo evaluar la pertinencia en 50 usuarios (6,9 % de 721 usuarios con comportamiento conocido) que controlaron sus síntomas en casa, ya que no se disponía de documentación clínica para su revisión.Tabla 6.

Cambio en la adecuación entre los planes de evaluación previa y el comportamiento real (cohorte pareada, N=382).

La concordancia entre evaluadores fue alta: los tres evaluadores coincidieron en 344 de 385 casos (89,4 %), mientras que hubo discrepancias en 41 casos. En 13 casos, el evaluador A discrepó de los evaluadores B y C; en 12 casos, el evaluador B discrepó; en 11 casos, el evaluador C discrepó; y en 5 casos, los tres evaluadores asignaron clasificaciones diferentes. El coeficiente kappa de Fleiss fue de aproximadamente 0,85, lo que indica una fiabilidad sustancial. Todas las discrepancias se resolvieron por consenso tras la revisión conjunta de los expedientes clínicos.

Utilización y adecuación del servicio de urgencias

Entre los usuarios que inicialmente planearon acudir a urgencias, el 27,8 % (35 de 126) modificó su decisión inmediatamente después de la evaluación, y el 38,5 % (37 de 96) optó finalmente por un nivel de atención diferente. De estos 96 usuarios, 29 tuvieron una consulta de seguimiento en CUF con una valoración de idoneidad. En 27 casos (27 de 29; IC del 95 %, 78,0 a 98,1), no se consideró necesaria la atención de urgencias, lo que sugiere que la decisión de los pacientes de evitar el servicio de urgencias fue clínicamente apropiada.En los dos casos restantes en los que los pacientes tuvieron una consulta de seguimiento, el DDSS recomendó atención de urgencia: uno por neumonía y el otro por una posible fractura de muñeca. A pesar de las buenas intenciones y el consejo del DDSS, un participante acudió a un médico de atención primaria y el otro a un especialista.En general, el 72,0 % de las visitas a urgencias (95 de 132; IC del 95 %, 63,6 a 79,0) se clasificaron como apropiadas. Esto incluyó 55 visitas consideradas clínicamente apropiadas y otras 40 que implicaron intervenciones específicas de urgencias, como diagnósticos, tratamientos o ingreso hospitalario.Entre las visitas apropiadas a urgencias, el 56,8% (54 de 95) correspondieron a pacientes que inicialmente no tenían intención de buscar atención de urgencias. Estas visitas involucraron a pacientes ligeramente mayores (41,1±13,6 años de edad) que las inapropiadas (36,0±12,9 años de edad; P=0,053). Cuando el DDSS recomendó atención de urgencias, el 82,1% (32 de 39; IC del 95%, 67,3 a 91,0) de esas visitas fueron posteriormente calificadas como apropiadas (Tabla S7). Según la Escala de Triaje de Manchester, el 33,7% de las visitas apropiadas se clasificaron como urgentes, en comparación con el 8,1% de las visitas inapropiadas (P=0,003). Las visitas entre semana fueron más frecuentemente apropiadas (74,7% frente a 57,5%; P=0,019).Para evaluar los posibles riesgos de seguridad tras cambios en la intención de atención, examinamos la utilización de atención aguda posterior entre usuarios que optaron por una atención menos intensiva que la atención de urgencia inicial y entre aquellos que acudieron directamente al servicio de urgencias del CUF. Entre los 207 usuarios que optaron por atención primaria o especializada tras la evaluación, 5 (2,4 %) posteriormente requirieron observación en urgencias. Estos eventos ocurrieron entre el día 3 y el día 11 e incluyeron complicaciones de amigdalitis, una infección del tracto urinario que no se resolvió, urticaria grave (tras una derivación por teleconsulta), empeoramiento de la ictericia en hepatitis y prostatitis (un caso con dos contactos en urgencias).En el grupo de 132 usuarios que acudieron directamente al servicio de urgencias, 13 (9,8 %) requirieron una segunda visita y 2 de ellos fueron ingresados ​​durante esa segunda visita. La proporción de usuarios que requirieron atención de urgencia tras su decisión inicial fue significativamente menor en el grupo de desescalada que en el grupo de atención directa al servicio de urgencias (5 de 207 [2,4 %] frente a 13 de 132 [9,8 %]; p = 0,003).

Análisis multivariable de predictores de comportamiento apropiado

Dado que la regresión logística tenía como objetivo examinar los predictores de comportamiento apropiado en toda la cohorte, se incluyeron en el modelo tanto usuarios de servicios de urgencias como usuarios de otros servicios. De los 522 usuarios con comportamiento conocido, 5 carecían de una evaluación de adecuación y 38 presentaban datos predictivos faltantes, lo que resultó en 479 casos completos para el análisis.El modelo fue estadísticamente significativo (razón de verosimilitud χ 2 (6)=13,82, P=0,00011; pseudo R 2 =0,045). La intención apropiada posterior a la evaluación fue el predictor más fuerte del comportamiento apropiado en el mundo real (razón de probabilidades, 2,84; IC del 95%, 1,55 a 5,34; P=0,001). El sexo femenino también se asoció con mayores probabilidades de comportamiento apropiado (razón de probabilidades, 1,69; IC del 95%, 1,10 a 2,63; P=0,018). La edad, la adecuación previa a la evaluación y la adecuación del asesoramiento del caso DDSS no fueron predictores estadísticamente significativos después del ajuste. Los coeficientes completos del modelo se proporcionan en la Tabla S8.

Generalización

En comparación con todos los usuarios que completaron la evaluación (n=16,158), la cohorte de estudio (n=1470) mostró tasas más bajas de intenciones de «no estoy seguro» (13.0% vs. 20.7%; P=0.012) e intenciones de manejo en el hogar (7.4% vs. 13.7%; P=0.0066). La cohorte también tuvo una mayor proporción de consejos de DDSS de atención primaria (74.8% vs. 68.5%; P<0.0001) y proporciones más bajas tanto de consejos de autocuidado (12.1% vs. 14.9%; P=0.002) como de consejos de emergencia o ambulancia (12.7% vs. 16.7%; P<0.0001). La distribución por sexo fue diferente, con menos mujeres en la población de estudio (57.7% vs. 65.0%; P<0.0001).Los usuarios con comportamiento conocido (n=721) eran ligeramente mayores que aquellos con comportamiento desconocido (n=749) (edad media, 39,5 vs. 37,7 años; P=0,005), mientras que la distribución por sexo (P=0,153) y el número de síntomas (P=0,083) no difirieron significativamente. Se observaron diferencias en las intenciones de atención y el asesoramiento del DDSS: los usuarios con comportamiento conocido tenían una mayor intención de atención de emergencia tanto antes como después de la evaluación, mientras que los usuarios con comportamiento desconocido tenían más intención de atención especializada y eligieron opciones de manejo en el hogar. Estos patrones coincidieron con la distribución del asesoramiento del DDSS, con los usuarios con comportamiento conocido recibiendo más asesoramiento de nivel de emergencia y los usuarios con comportamiento desconocido recibiendo más asesoramiento alineado con especialistas (P=0,033). Los resultados completos se proporcionan en las Tablas S9 y S10.

Discusión

El estudio ESSENCE evaluó una vía digital de evaluación de síntomas con apoyo de IA integrada en la mayor red privada de atención médica de Portugal para fomentar una utilización más adecuada de los servicios sanitarios. El uso de la herramienta se asoció con cambios medibles en las intenciones y comportamientos de los pacientes, reduciendo la incertidumbre y promoviendo opciones de atención más acordes con la pertinencia clínica. Estos cambios se correspondieron con ajustes significativos en el uso de los servicios, incluyendo un mayor uso de la atención primaria y una reducción de las visitas a especialistas y urgencias, lo que pone de manifiesto el potencial de las herramientas digitales de apoyo a la toma de decisiones para influir en el comportamiento real en materia de atención sanitaria.

Inteligencia artificial en el empoderamiento del paciente y la utilización de los servicios de salud

La IA se reconoce cada vez más como una herramienta para ayudar a los pacientes a tomar decisiones sobre su atención médica. Al sintetizar datos de síntomas y ofrecer orientación personalizada, la evaluación de síntomas asistida por IA, cuando se integra en una vía digital práctica, puede contribuir a mejorar la eficiencia y la pertinencia. Los beneficios a nivel de sistema del triaje habilitado por IA se han demostrado en trabajos anteriores. 10 Las primeras evaluaciones se centraron en la precisión diagnóstica, pero el interés ahora se está desplazando hacia el impacto en el mundo real sobre el comportamiento y los resultados. Ya se ha demostrado que las integraciones de IA influyen en los comportamientos de salud en áreas como el manejo de la hipertensión, el abandono del tabaquismo y la terapia cognitivo-conductual digital para el dolor y la ansiedad. 11-13 Sin embargo, la evidencia sobre cómo las herramientas DFD afectan las decisiones de atención reales sigue siendo limitada.Un estudio que evaluó la integración del triaje virtual asistido por IA con el triaje de enfermería en vivo en un plan de seguro médico portugués encontró que el 22,8 % de los pacientes afiliados revisaron su intención de atención después del triaje —en comparación con más del 30 % en el presente estudio—, pero el comportamiento solo se midió a través de las reservas de consultas externas, excluyendo a aquellos que eligieron urgencias o autocuidado, y el enfoque del estudio se centró principalmente en la comparación de intenciones. 7 La puerta de entrada virtual nacional de Australia redirigió al 55 % de los usuarios con intención de urgencias a opciones de menor gravedad, pero no se evaluaron la adherencia ni la idoneidad. 8 Una herramienta relacionada basada en un modelo de lenguaje grande (LLM) mostró un buen rendimiento técnico, pero también carecía de validación conductual. 

14En conjunto, estos estudios reflejan un creciente interés en las herramientas de navegación con soporte de IA, pero también ponen de manifiesto una limitación común: la dependencia del rendimiento de la IA o de la intención declarada, en lugar del comportamiento observado. En el presente estudio, la escasa concordancia entre la intención posterior a la evaluación y el comportamiento real (κ de Cohen = 0,25) refuerza la necesidad de una evaluación rigurosa en entornos reales para comprender cómo las herramientas DFD influyen en las acciones de los pacientes y en los resultados del sistema.

Factores que impulsan el cambio de comportamiento

Comprender el comportamiento de búsqueda de atención médica es intrínsecamente complejo. En este estudio, un tercio de los usuarios modificó sus intenciones de atención médica inmediatamente después de revisar el informe, lo que sugiere que el proceso de evaluación y la información estructurada influyeron significativamente en sus decisiones iniciales.Después de esto, se mostraron a los usuarios opciones de servicio mapeadas y adaptadas a su condición y urgencia, desarrolladas conjuntamente por CUF y el proveedor de DDSS. Estas vías conformaron una intervención digital compuesta, que combinó el contenido informativo de la evaluación DDSS con acceso inmediato a opciones de siguiente paso reservables o ejecutables (por ejemplo, videoconsultas de atención primaria, citas de atención primaria el mismo día y orientación para atención de emergencia). La alta utilización de teleconsultas y citas el mismo día sugiere que estas opciones ejecutables influyeron fuertemente en el comportamiento, y estudios previos muestran que la inmediatez y la conveniencia a menudo superan la urgencia en las decisiones de atención, lo que significa que los siguientes pasos claros probablemente actuaron como incentivos conductuales efectivos. 

15-17 Dado que nuestro conjunto de datos no incluye información sobre qué enlaces vieron, hicieron clic o utilizaron los usuarios para completar una reserva, no pudimos separar analíticamente la influencia del asesoramiento de DDSS del efecto de estos enlaces de servicio o su conveniencia asociada. Por lo tanto, el cambio de comportamiento observado debe interpretarse como el impacto de la vía combinada con soporte de IA en lugar del componente DDSS por sí solo.Además, si bien las recomendaciones de triaje guían las decisiones, los pacientes también sopesan si el consejo se ajusta a sus circunstancias. La investigación cualitativa muestra que las personas actúan según la orientación que les resulta clara, tranquilizadora y factible. 4 Estos patrones reflejan modelos de economía conductual, donde los individuos a menudo se “satisfacen” — eligiendo opciones aceptables, aunque no óptimas, en situaciones de incertidumbre. 18 La participación del paciente mejora aún más cuando las vías digitales ofrecen transparencia, personalización y empatía percibida, creando una base creíble para la toma de decisiones. 16 Las evaluaciones futuras que incorporen la vinculación con la historia clínica electrónica, el análisis a nivel de clic, las pruebas A/B de los elementos de la vía o las entrevistas con los usuarios serán importantes para aislar qué componentes específicos del informe, recomendaciones, enlaces de servicio o factores contextuales impulsan con mayor fuerza el cambio de comportamiento.

Adecuación de la toma de decisiones

Los sistemas de diagnóstico basados ​​en IA buscan guiar a los pacientes hacia la atención adecuada o el autocuidado seguro, mejorando los resultados y la eficiencia, a la vez que reducen el uso innecesario o inadecuado. Sin embargo, la idoneidad de las consultas rara vez se evalúa, especialmente fuera de los servicios de urgencias, donde los marcos de referencia están más establecidos.Estas evaluaciones tampoco son sencillas. Los juicios retrospectivos a menudo carecen de información sobre las motivaciones del paciente o la progresión de los síntomas. Las herramientas se centran en la eficacia clínica, pero con frecuencia pasan por alto las barreras, las necesidades de tranquilidad y las consideraciones de costos. 

19 Incluso las calificaciones clínicas son subjetivas: Giannouchos et al. encontraron una discordancia del 40 % al 60 % en el triaje de urgencias al comparar los diagnósticos de alta con las quejas de presentación. 

20Los marcos también tienden a asumir una única opción «correcta», ignorando que múltiples vías de atención pueden ser razonables. En la práctica, la ambigüedad, los síntomas superpuestos y el contexto dan forma al comportamiento. Las visitas de fin de semana se calificaron con más frecuencia como inapropiadas que las visitas entre semana; sin embargo, este patrón también puede reflejar una menor disponibilidad de servicios de atención primaria en lugar de solo la preferencia del paciente. En nuestro entorno, los servicios de atención primaria presenciales operan solo los sábados hasta la 1:00 p. m. y no están disponibles desde la tarde del sábado hasta el domingo, tiempo durante el cual solo las videoconsultas de atención primaria y el servicio de urgencias permanecen accesibles. Como resultado, una visita que se calificaría como inapropiada durante la semana, cuando hay más opciones de servicio disponibles, puede considerarse apropiada los fines de semana cuando no hay atención presencial alternativa accesible. Este matiz debe considerarse explícitamente en futuras evaluaciones de adecuación. Al mismo tiempo, la menor disponibilidad de servicios puede interactuar con factores como la conveniencia y los tiempos de espera percibidos, que previamente se ha demostrado que influyen en el comportamiento de búsqueda de atención y a veces superan el razonamiento clínico, haciéndose eco de los hallazgos de Kraaijvanger et al. 

21 Ambos mecanismos representan explicaciones plausibles para el patrón observado durante el fin de semana.El análisis multivariable contextualizó aún más estos patrones de adecuación. En una regresión logística, el predictor más fuerte de un comportamiento apropiado en el mundo real fue tener una intención apropiada después de la evaluación (razón de probabilidades, 2,84; IC del 95 %, 1,55 a 5,34). Es crucial destacar que esta intención posterior a la evaluación se registró antes de que se presentaran las opciones de servicio o las vías de reserva, lo que significa que solo pudo haber sido moldeada por la información estructurada contenida en la propia evaluación de síntomas. Esto sugiere que el proceso de evaluación —incluido el marco de urgencia, el diagnóstico diferencial y el contenido explicativo— contribuyó significativamente a alinear a los usuarios con la atención apropiada. El sexo femenino también se asoció con mayores probabilidades de un comportamiento apropiado, mientras que la edad, la intención inicial y la adecuación del asesoramiento del caso no fueron predictores independientes, lo que subraya que la alineación del comportamiento puede estar más impulsada por cómo los usuarios interpretan los resultados de la evaluación que por las características basales.Se obtienen más datos a partir de investigaciones experimentales fuera de los entornos clínicos. En un ensayo aleatorizado, Kopka et al. demostraron que el uso por parte de personas no profesionales de la salud de un sistema de apoyo a la decisión clínica (DDSS) mejoró la precisión del triaje (del 53,2 % al 64,5 %), triplicó el reconocimiento correcto del autocuidado (del 13,1 % al 36,9 %) e incrementó la detección de emergencias en un 29 %, sin aumentar el subtriaje.<sup> 

4 </sup> Los usuarios también fueron más propensos a revisar la urgencia (27 % frente al 17 % con un sistema de gestión de la vida de propósito general), lo que respalda los hallazgos conductuales del estudio ESSENCE.Aunque pocos estudios evalúan la toma de decisiones asistida por IA antes de que se busque atención médica, existen evaluaciones basadas en servicios de urgencias. Taylor et al. estudiaron una herramienta de triaje con IA en servicios de urgencias de Estados Unidos, informando una mejor detección de enfermedades críticas (del 78,8 % al 83,1 %) y una atención más rápida.<sup> 

10</sup> En lugar de etiquetas binarias, el estudio utilizó resultados posteriores, como la necesidad de cuidados intensivos y la hospitalización, como indicadores indirectos de calidad.

Fortalezas

El estudio ESSENCE se encuentra entre las primeras evaluaciones prospectivas en el mundo real de sistemas de apoyo a la decisión clínica (DDSS) integrados en un sistema de atención médica para influir en la utilización de los pacientes. Su fortaleza metodológica radica en la combinación de intenciones autoinformadas con datos de seguimiento objetivos provenientes de historias clínicas electrónicas y encuestas por correo electrónico con una alta tasa de respuesta, lo que permite una triangulación sólida entre el comportamiento planificado y el real, abordando así una limitación común de la investigación en salud digital. Una de las características más notables del estudio fue su capacidad para adaptar los DDSS a las necesidades específicas de cada paciente, lo que no solo facilitó una experiencia de atención más personalizada, sino que también incentivó el cumplimiento de los tratamientos recomendados. Realizado dentro de la mayor red privada de atención médica de Portugal, el estudio se benefició de una base de usuarios amplia y heterogénea que abarca todo el espectro de atención, desde el autocuidado hasta las visitas a especialistas y urgencias, y aplicó criterios de adecuación estructurados únicos más allá de los entornos de urgencias, lo que enriqueció aún más los datos recopilados. El riguroso diseño prospectivo, la adhesión a las directrices de buenas prácticas clínicas ISO 14155:2020, un año de recopilación de datos y la inclusión de diversas especialidades para adultos mejoran la generalización y proporcionan una base sólida para comprender el impacto real que tienen los DDSS en la utilización de la atención médica. Además, el estudio ofrece valiosas lecciones sobre cómo los DDSS pueden ser implementados efectivamente en otros entornos de atención, sugiriendo que la atención integrada y basada en evidencias puede ser una clave para mejorar los resultados en salud a nivel global.

Limitaciones

La inclusión en la cohorte del estudio requirió un segundo paso de consentimiento explícito en el que los usuarios optaron por compartir su informe de evaluación con un médico de CUF. Dado que esta acción es relevante principalmente para las personas que pretenden buscar atención basada en CUF, es probable que haya introducido un sesgo de inclusión hacia más usuarios que buscan atención. En consonancia con esto, la cohorte del estudio mostró menor incertidumbre, menos intenciones de autocuidado y una mayor proporción de consejos de atención primaria en comparación con la población de evaluación más amplia. En la base de usuarios más amplia de DDSS (n=16.158), las intenciones de autocuidado aumentaron del 13,7% al 16,9% después de la evaluación, mientras que en la cohorte del estudio, el autocuidado se mantuvo sustancialmente más bajo (del 7,4% al 7,3%). Los datos de seguimiento también fueron desiguales: el comportamiento solo pudo capturarse completamente para los usuarios que participaron en los servicios de CUF a través de la vinculación de EHR, mientras que la atención fuera de la red dependió de encuestas voluntarias por correo electrónico, lo que probablemente subestimó el autocuidado y evitó las visitas. Como reflejo de estas diferencias metodológicas, los usuarios con un comportamiento conocido tendían a recibir consejos de mayor complejidad y expresaban una mayor intención de recibir atención de emergencia, mientras que los usuarios con un comportamiento desconocido mostraban con mayor frecuencia intenciones de acudir a un especialista o de gestionar su caso en casa.La extrapolación de estos hallazgos a sistemas de salud públicos o con recursos limitados requiere precaución. El estudio se realizó en una red privada con amplios recursos, acceso rápido a atención primaria y especializada, bajas barreras estructurales y sistemas de reserva digitalizados, condiciones que difieren sustancialmente de muchos sistemas públicos. En entornos donde el acceso a la atención primaria es limitado y la atención especializada implica largas demoras, el comportamiento de búsqueda de atención médica podría variar.Los sistemas públicos suelen buscar fomentar la autogestión segura para reducir la demanda evitable; sin embargo, aún no se sabe con certeza si se producirían cambios similares en contextos con diferentes barreras de acceso, tiempos de espera y estructuras de costos. Se requiere una evaluación más exhaustiva en entornos públicos o con menos recursos —donde las respuestas conductuales, la sustitución de servicios y los umbrales de idoneidad pueden variar— para determinar la generalización de estos patrones de utilización.Además, en este contexto, las visitas a urgencias se registran correctamente, pero los ingresos en hospitales privados requieren un depósito inicial elevado, lo que lleva a muchos pacientes a buscar atención hospitalaria en el sector público, que no está vinculado al sistema de historia clínica electrónica de CUF. Como resultado, las hospitalizaciones posteriores se subestiman sistemáticamente.Los datos demográficos, de intención y de asesoramiento del DDSS solo están disponibles una vez que el usuario completa la evaluación de síntomas. No se recopila información en etapas anteriores de abandono (p. ej., invitación → consentimiento → inicio de la evaluación), lo que limita la capacidad de comparar a los usuarios que se pierden antes de completar la evaluación. Es importante destacar que no teníamos datos sobre con qué elementos del informe interactuaron los usuarios, incluyendo qué afecciones abrieron en la aplicación o qué enlaces de servicio vieron o en cuáles hicieron clic. Como resultado, solo se pudo evaluar la acción de atención final (p. ej., visita registrada al CUF o comportamiento autoinformado), y no pudimos determinar cómo la exposición a componentes específicos del informe influyó en las decisiones.Además, las calificaciones de idoneidad se evaluaron mediante diferentes métodos según el nivel de atención, y no fue posible evaluar las decisiones de autocuidado debido a la falta de documentación clínica para los 50 usuarios que controlaron sus síntomas en casa (6,9 % de aquellos con comportamiento conocido). Excluir estos casos de baja gravedad —que a menudo se considerarían apropiados— probablemente introduce un sesgo a la baja, lo que significa que las estimaciones de idoneidad reportadas podrían subestimar la idoneidad real en todos los entornos.Otra limitación de este estudio es la ausencia de un grupo de control. Sin un grupo de comparación, no podemos determinar en qué medida el cambio observado en las intenciones y el comportamiento respecto al cuidado de la salud se habría producido de forma natural a lo largo de la enfermedad, independientemente de la vía digital. La gravedad de la enfermedad, la progresión de los síntomas o factores externos —como la disponibilidad de servicios o el apoyo social— pueden influir en las decisiones incluso sin ninguna intervención.

Conclusión

El estudio ESSENCE aporta evidencia real de que una vía de evaluación digital con apoyo de IA puede contribuir a una toma de decisiones más segura y adecuada por parte del paciente, estableciendo así un nuevo estandar en la medicina moderna. Al combinar la evaluación personalizada de los síntomas con opciones de servicio prácticas y accesibles, la integración también redujo la incertidumbre que habitualmente experimentan los pacientes al buscar atención médica, modificó las intenciones de atención y promovió un uso más apropiado de los servicios de salud. Esto resalta el potencial de la IA como herramienta no solo de análisis, sino como un verdadero aliado que puede influir en el comportamiento dentro de las vías de atención, generando un cambio significativo en la manera en que los pacientes interactúan con los servicios médicos. Es importante destacar que el impacto de la IA va más allá de la precisión de los resultados; también abarca cómo se estructura, se percibe y se utiliza la información en el contexto de la salud, creando una experiencia más fluida y menos intimidante. Esto subraya la necesidad de un diseño centrado en el usuario y una integración cuidadosa en los sistemas de atención médica, considerando las diversas realidades y necesidades de cada paciente. En el futuro, se debería priorizar la ampliación de los enfoques de vinculación de registros electrónicos de salud (EHR) para capturar con mayor precisión el comportamiento en la vida real, al tiempo que se examina con mayor profundidad qué elementos específicos de los informes, recomendaciones, enlaces a servicios y factores contextuales —como la disponibilidad de servicios, la evolución de los síntomas o la influencia social— impulsan el cambio de comportamiento de manera efectiva. Los métodos complementarios, incluidas las pruebas A/B para aislar el impacto de los componentes individuales y las entrevistas con los usuarios para explorar los procesos de toma de decisiones, serán valiosos para identificar los mecanismos que más influyen en las acciones de búsqueda de atención médica y, en última instancia, llevó a establecer un sistema de salud más receptivo. Se necesitan evaluaciones más amplias en entornos públicos y desfavorecidos para evaluar la generalización de los hallazgos, junto con estudios de economía de la salud que cuantifiquen el costo real y el impacto en el sistema que estos cambios pueden traer. Estas evaluaciones permitirán no solo mejorar la práctica clínica, sino también asegurar que los beneficios de la IA se traduzcan en experiencias de atención más equitativas. Gobernanza del análisis estadístico y de datos: El análisis estadístico fue realizado por el autor FC, quien aplicó técnicas avanzadas para asegurar la validez de los resultados. El equipo del Centro Académico de CUF, bajo la dirección del estadístico SD y la supervisión del autor PF, realizó una revisión y auditoría estadística independiente y detallada (de forma independiente del desarrollador de DDSS y de todos los coautores afiliados al desarrollador). Los autores SD y PF tuvieron acceso a todos los datos brutos y a todos los análisis, y llevaron a cabo una evaluación independiente de todos los métodos y análisis. Estos autores realizaron análisis independientes adicionales cuando lo consideraron necesario y aprobaron de forma independiente los análisis finales y los informes estadísticos, garantizando así la transparencia y la integridad en la presentación de los hallazgos del estudio.

Publicado por saludbydiaz

Especialista en Medicina Interna-nefrología-terapia intensiva-salud pública. Director de la Carrera Economía y gestión de la salud de ISALUD. Director Médico del Sanatorio Sagrado Corazon Argentina. 2010-hasta la fecha. Titular de gestión estratégica en salud

Deja un comentario