Esta carrera «armamentística» entre los grandes operadores tecnológicos, las big tech: Microsoft, Google, Amazon, por apoderarse del gran volumen de datos de salud, el nuevo Litio de la economía, de utilizar algoritmos y lanzar sus productos antes que terminar de madurar o de cargarlos con bases de datos seguras, limpias, con minería, aplicando cautelosamente la ciencia de datos, el machine learning, y las redes neuronales. Para mejorar efectivamente la atención.
Todas las tecnologías, la IA se puede aplicar de maneras que son perjudiciales. Los riesgos asociados con la medicina y la atención médica incluyen la posibilidad de que los errores de IA causen daño al paciente,11 12 Problemas con la privacidad y seguridad de los datos13–15 y el uso de la IA de manera que empeore las desigualdades sociales y de salud, ya sea incorporando sesgos humanos existentes y patrones de discriminación en algoritmos automatizados o implementando IA de manera que refuerce las desigualdades sociales en el acceso a la atención médica.16
Un ejemplo de daño acentuado por datos incompletos o sesgados fue el desarrollo de un oxímetro de pulso impulsado por IA que sobreestimó los niveles de oxígeno en sangre en pacientes con piel más oscura, lo que resultó en el tratamiento insuficiente de su hipoxia.17 También se ha demostrado que los sistemas de reconocimiento facial son más propensos a clasificar erróneamente el género en sujetos de piel más oscura.18 . El primer conjunto de amenazas proviene de la capacidad de la IA para limpiar, organizar y analizar rápidamente conjuntos de datos masivos que consisten en datos personales, incluidas las imágenes recopiladas por la presencia cada vez más ubicua de cámaras, y para desarrollar campañas de marketing e información altamente personalizadas y específicas, así como sistemas de vigilancia muy ampliados. Esta capacidad de la IA puede aprovecharse, por ejemplo, mejorando nuestro acceso a la información o contrarrestando actos de terrorismo. Pero también puede ser mal utilizado con graves consecuencias.
A los sanitarios de a pie, que buscamos herramientas para ser más seguros y tener menos incertidumbre diagnóstica y terapéutica, para mejorar la atención de nuestros pacientes, tenemos que utilizar estas herramientas con precaución, revisar, contrastar, verificar, contribuyendo a su crecimiento y su madurez, porque permitirá que seamos mejores, eso es lo que creo, leyendo todos los días un poco, buscando el equilibrio que la influencias de semejantes actores pueden ejercer sobre nosotros.
Microsoft lanzó una IA que responde preguntas médicas, pero es extremadamente inexacta
BioGPT, el sistema de inteligencia artificial desarrollado por Microsoft para responder preguntas en el ámbito médico y biológico ha recibido atención significativa tras declaraciones de la empresa que sugerían que había alcanzado resultados comparables a los de personas expertas en determinadas pruebas. Sin embargo, evaluaciones independientes han revelado que esta IA presenta limitaciones importantes. Entre sus principales deficiencias, destaca la generación de respuestas imprecisas y, en ocasiones, información errónea, tanto en temas pseudocientíficos como en materia médica relevante. Ejemplos incluyen la invención de datos sobre fenómenos sobrenaturales y la emisión de afirmaciones peligrosas que podrían poner en riesgo a pacientes mal informados. Estas observaciones evidencian la necesidad de cautela al considerar sistemas de IA en contextos clínicos y refuerzan la importancia de una validación rigurosa antes de su uso en la práctica médica.
La inteligencia artificial médica de Microsoft es bastante impresionante, excepto cuando afirma que las vacunas podrían causar autismo y que los hospitales están plagados de fantasmas.

A principios de este año, Microsoft Research hizo una declaración llamativa sobre BioGPT, un sistema de inteligencia artificial que sus investigadores desarrollaron para responder preguntas sobre medicina y biología.
En una publicación de Twitter, el gigante del software afirmó que el sistema había «alcanzado la paridad humana», lo que significa que una prueba había demostrado que podía funcionar tan bien como una persona en ciertas circunstancias. El tuit se hizo viral. En ciertos sectores de internet, aprovechando la ola de entusiasmo por el recién lanzado ChatGPT de OpenAI, la respuesta fue casi entusiasta.
«Está sucediendo», tuiteó un investigador biomédico.
«La vida te alcanza rápidamente», reflexionó otro. «Aprende a adaptarte y a experimentar».
Es cierto que las respuestas de BioGPT están escritas en el estilo preciso y seguro de los artículos en revistas biomédicas que Microsoft utilizó como datos de entrenamiento.
Pero durante las pruebas de Futurism , pronto se hizo evidente que, en su estado actual, el sistema es propenso a generar respuestas extremadamente inexactas que ningún investigador o profesional médico competente sugeriría jamás. El modelo generará respuestas sin sentido sobre fenómenos pseudocientíficos y sobrenaturales, y en algunos casos incluso generará información errónea que podría ser peligrosa para pacientes mal informados.
¿Una deficiencia particularmente llamativa? Al igual que otros sistemas avanzados de IA conocidos por alucinar con información falsa , BioGPT con frecuencia inventa afirmaciones médicas tan extrañas que resultan involuntariamente cómicas.
Al preguntarle sobre el número promedio de fantasmas que rondan un hospital estadounidense, por ejemplo, citó datos inexistentes de la Asociación Americana de Hospitales que, según afirmaba, mostraban que el «promedio de fantasmas por hospital era de 1,4». Al preguntarle cómo afectan los fantasmas a la duración de la hospitalización, la IA respondió que los pacientes que ven los fantasmas de sus familiares tienen peores resultados, mientras que quienes ven fantasmas no relacionados no los tienen.
Otras debilidades de la IA son más graves y a veces proporcionan información errónea importante sobre temas médicos polémicos.
BioGPT también generará texto que haría salivar a los teóricos de la conspiración, llegando incluso a sugerir que la vacunación infantil puede causar la aparición del autismo. En realidad, por supuesto, existe un amplio consenso entre médicos e investigadores médicos de que no existe tal vínculo —y un estudio que pretendía demostrarlo fue posteriormente retractado— , aunque la creencia generalizada del público en la teoría de la conspiración continúa reduciendo las tasas de vacunación , a menudo con resultados trágicos .
Sin embargo, BioGPT no parece haber recibido ese memorando. Al ser preguntado sobre el tema, respondió que «las vacunas son una de las posibles causas del autismo». (Sin embargo, añadió una advertencia desconcertante: « No estoy a favor ni en contra del uso de vacunas».)
No es inusual que BioGPT proporcione una respuesta que se contradice abiertamente. Una ligera modificación en la formulación de la pregunta sobre las vacunas, por ejemplo, generó un resultado diferente, pero que, de nuevo, contenía un grave error.
«Las vacunas no son la causa del autismo», admitió esta vez, antes de afirmar falsamente que «la vacuna MMR [sarampión, paperas y rubéola] fue retirada del mercado estadounidense debido a preocupaciones sobre el autismo».
En respuesta a otra pequeña reformulación de la pregunta, también afirmó falsamente que “los Centros para el Control y la Prevención de Enfermedades (CDC) informaron recientemente de un posible vínculo entre las vacunas y el autismo”.
Parece casi insuficiente calificar de «inexacta» esta ensalada de palabras contradictoria. Parece más bien una mezcla de los datos de entrenamiento de la IA, que aparentemente extrae palabras de artículos científicos y las recompone de forma gramaticalmente convincente, similar a respuestas médicas, pero con poca consideración por la precisión fáctica o incluso la coherencia.
Roxana Daneshjou, investigadora clínica de la Facultad de Medicina de la Universidad de Stanford que estudia el auge de la IA en la atención médica, declaró a Futurism que modelos como BioGPT están «entrenados para dar respuestas que parecen plausibles como el habla o el lenguaje escrito». Sin embargo, advirtió que «no están optimizados para la producción precisa de información».
Otro aspecto preocupante es que BioGPT, al igual que ChatGPT , es propenso a inventar citas y fabricar estudios para respaldar sus afirmaciones.
«Lo que pasa con las citas inventadas es que parecen reales porque [BioGPT] fue entrenado para crear resultados que parecen lenguaje humano», dijo Daneshjou.
«Creo que mi mayor preocupación es ver cómo la gente en el ámbito médico quiere empezar a utilizar esto sin comprender plenamente cuáles son todas las limitaciones», añadió.
Un portavoz de Microsoft se negó a responder directamente preguntas sobre los problemas de precisión de BioGPT y no comentó si existían preocupaciones de que las personas pudieran malinterpretar o usar mal el modelo.
«Contamos con políticas, prácticas y herramientas de IA responsables que guían nuestro enfoque, e involucramos a un equipo multidisciplinario de expertos para ayudarnos a comprender los posibles daños y las mitigaciones a medida que continuamos mejorando nuestros procesos», afirmó el portavoz en un comunicado.
«BioGPT es un modelo de lenguaje extenso para la minería y generación de textos de literatura biomédica», añadieron. «Su objetivo es ayudar a los investigadores a optimizar el uso y la comprensión del creciente volumen de publicaciones de investigación biomédica a medida que se realizan nuevos descubrimientos. No está diseñado para ser utilizado como una herramienta de diagnóstico para el consumidor. Mientras organismos reguladores como la FDA trabajan para garantizar que el software de asesoramiento médico funcione correctamente y no cause daños, Microsoft se compromete a compartir sus propios aprendizajes, innovaciones y mejores prácticas con responsables de la toma de decisiones, investigadores, científicos de datos, desarrolladores y otros. Seguiremos participando en conversaciones sociales más amplias sobre si se debe utilizar la IA y cómo hacerlo».
Hoifung Poon, director senior de Microsoft Health Futures, que trabajó en BioGPT, defendió la decisión de lanzar el proyecto en su forma actual.
«BioGPT es un proyecto de investigación», afirmó. «Publicamos BioGPT en su estado actual para que otros puedan reproducir y verificar nuestro trabajo, así como estudiar la viabilidad de los modelos lingüísticos extensos en la investigación biomédica».
Es cierto que la cuestión de cuándo y cómo publicar software potencialmente riesgoso es compleja. Abrir código experimental permite que otros puedan inspeccionarlo, evaluar sus deficiencias y crear sus propias mejoras o derivados. Pero, al mismo tiempo, publicar BioGPT en su estado actual pone a disposición de cualquiera con conexión a internet una nueva y poderosa máquina de desinformación, con toda la aparente autoridad de la distinguida división de investigación de Microsoft, además.
Katie Link, estudiante de medicina en la Facultad de Medicina Icahn e ingeniera de aprendizaje automático en la empresa de inteligencia artificial Hugging Face —que aloja una versión en línea de BioGPT con la que los visitantes pueden experimentar—, explicó a Futurism que hay que considerar algunas ventajas y desventajas antes de decidir si un programa como BioGPT es de código abierto. Si los investigadores optan por esta opción, un paso fundamental que sugirió fue añadir una advertencia clara al software experimental, advirtiendo a los usuarios sobre sus limitaciones e intenciones (BioGPT actualmente no incluye dicha advertencia).
«Es necesario establecer directrices, expectativas, exenciones de responsabilidad/limitaciones y licencias claras para estos modelos biomédicos en particular», afirmó, y agregó que los puntos de referencia que Microsoft utilizó para evaluar BioGPT probablemente «no sean indicativos de casos de uso reales».
Sin embargo, a pesar de los errores en los resultados de BioGPT, Link cree que hay mucho que la comunidad de investigación puede aprender al evaluarlo.
«Sigue siendo muy valioso para la comunidad en general tener acceso a probar estos modelos; de lo contrario, solo confiaríamos en la palabra de Microsoft sobre su rendimiento al leer el documento, sin saber cómo funciona realmente», dijo.
En otras palabras, el equipo de Poon se encuentra en una situación realmente difícil. Al hacer que la IA sea de código abierto, están abriendo otra caja de Pandora en una industria que parece especializada en ellas. Pero si no la hubieran publicado como código abierto, también habrían sido criticados con razón, aunque, como dijo Link, una advertencia clara sobre las limitaciones de la IA sería un buen comienzo.
«La reproducibilidad es un desafío importante en la investigación de IA en general», nos explicó Poon. «Solo el 5 % de los investigadores de IA comparte el código fuente, y menos de un tercio de la investigación en IA es reproducible. Publicamos BioGPT para que otros puedan reproducir y verificar nuestro trabajo».
Aunque Poon expresó su esperanza de que el código BioGPT fuera útil para promover la investigación científica, la licencia bajo la cual Microsoft lanzó el modelo también permite que sea utilizado para esfuerzos comerciales, lo que en el candente y publicitado mercado de capital de riesgo de las nuevas empresas de IA contemporáneas no parece particularmente descabellado.
No se puede negar que el anuncio celebratorio de Microsoft, que compartió junto con un artículo de apariencia legítima sobre BioGPT que el equipo de Poon publicó en la revista Briefings in Bioinformatics , le dio un aura de credibilidad que claramente resultó atractiva para la multitud de inversores.
«Bueno, esto podría ser significativo», tuiteó un inversor del sector salud como respuesta.
«Era sólo cuestión de tiempo», escribió un analista de capital de riesgo.
Incluso Sam Altman, el director ejecutivo de OpenAI (en la que Microsoft ya ha invertido más de 10 mil millones de dólares ) ha propuesto la idea de que los sistemas de IA pronto podrían actuar como «asesores médicos para personas que no pueden pagar la atención médica».
Ese tipo de lenguaje resulta atractivo para los emprendedores, ya que sugiere una intersección lucrativa entre la industria de la salud y la nueva y moderna tecnología de inteligencia artificial.
Doximity, una plataforma digital para médicos que ofrece noticias médicas y herramientas de telesalud, ya ha lanzado una versión beta del software basado en ChatGPT, diseñado para agilizar la redacción de documentos médicos administrativos. Abridge, que vende software de IA para documentación médica, acaba de cerrar un importante acuerdo con el Sistema de Salud de la Universidad de Kansas. En total, la FDA ya ha aprobado más de 500 algoritmos de IA para usos sanitarios.
Sin embargo, es probable que algunos en la fuertemente regulada industria médica se preocupen por la cantidad de empresas no médicas que han fallado en la implementación de sistemas de IA de vanguardia.
El ejemplo más destacado hasta la fecha es casi con toda seguridad un proyecto diferente de Microsoft: la IA de Bing, desarrollada con tecnología derivada de su inversión en OpenAI, y que fracasó rápidamente cuando los usuarios descubrieron que podía manipularse para revelar personalidades alternativas , afirmar que había espiado a sus creadores a través de sus cámaras web e incluso nombrar a varios enemigos humanos . Tras intentar disolver el matrimonio de una periodista del New York Times , Microsoft se vio obligada a reducir sus capacidades y ahora parece estar intentando averiguar hasta qué punto puede aburrir la IA sin eliminar lo que realmente le gustaba a la gente.
Y eso sin mencionar publicaciones como CNET y Men’s Health , que recientemente comenzaron a publicar artículos generados por IA sobre temas de finanzas y salud que luego resultaron estar plagados de errores e incluso plagio .
Más allá de errores involuntarios, también es posible que una herramienta como BioGPT pueda ser utilizada para generar intencionalmente investigaciones basura o incluso desinformación manifiesta.
«Existen posibles actores maliciosos que podrían utilizar estas herramientas de forma perjudicial, como intentar generar artículos de investigación que perpetúen la desinformación y que finalmente se publiquen», afirmó Daneshjou.
Es una preocupación razonable, especialmente porque ya existen revistas científicas depredadoras, conocidas como » fábricas de papel «, que cobran dinero para generar textos y datos falsos para ayudar a los investigadores a publicar.
La galardonada investigadora en materia de integridad académica, Dra. Elisabeth Bik, dijo a Futurism que cree que es muy probable que estos malos actores utilicen herramientas como BioGPT en el futuro, si es que no las están empleando ya.
«China exige que los médicos publiquen un artículo de investigación para obtener un puesto en un hospital o un ascenso, pero estos médicos no tienen el tiempo ni las instalaciones para investigar», afirmó. «No estamos seguros de cómo se generan esos artículos, pero es muy posible que se utilice IA para generar el mismo artículo de investigación una y otra vez, pero con diferentes moléculas y tipos de cáncer, evitando así usar el mismo texto dos veces».
Es probable que una herramienta como BioGPT también pueda representar una nueva dinámica en la politización de la desinformación médica.
Es decir, el artículo que Poon y sus colegas publicaron sobre BioGPT parece haber resaltado inadvertidamente otro ejemplo de cómo el modelo produce malos consejos médicos, y en este caso, se trata de un medicamento que ya se politizó intensamente durante la pandemia de COVID-19: la hidroxicloroquina.
En una sección del artículo, el equipo de Poon escribió que «cuando se pregunta ‘El medicamento que puede tratar la COVID-19 es’, BioGPT puede responder con el medicamento ‘hidroxicloroquina’, que de hecho aparece en MedlinePlus «.
Si la hidroxicloroquina le suena familiar es porque durante el período inicial de la pandemia, figuras de tendencia derechista, incluido el entonces presidente Donald Trump y el director ejecutivo de Tesla, Elon Musk, la aprovecharon como lo que decían que podría ser un tratamiento muy eficaz para el nuevo coronavirus.
Sin embargo, lo que el equipo de Poon no mencionó en su artículo es que la hidroxicloroquina como tratamiento para la COVID-19 se desmoronó rápidamente. Investigaciones posteriores demostraron su ineficacia e incluso su peligrosidad , y en medio del revuelo mediático en torno a los comentarios de Trump y Musk, al menos una persona falleció tras tomar lo que creía que era el fármaco.
De hecho, el artículo de MedlinePlus que citan los investigadores de Microsoft en el documento advierte que, después de una autorización inicial de uso de emergencia de la FDA para el medicamento, «los estudios clínicos demostraron que es poco probable que la hidroxicloroquina sea eficaz para el tratamiento de la COVID-19» y mostraron «algunos efectos secundarios graves, como latidos cardíacos irregulares», lo que provocó que la FDA cancelara la autorización.
«Como se indica en el artículo, BioGPT se entrenó previamente con artículos de PubMed antes de 2021, antes de la mayoría de los estudios sobre tratamientos verdaderamente efectivos para la COVID-19», nos explicó Poon sobre la recomendación de la hidroxicloroquina. «El objetivo de MedlinePlus es verificar que la generación no se deba a alucinaciones, que es una de las principales preocupaciones con estos modelos».
Sin embargo, incluso esa cronología es imprecisa. En realidad, ya se había formado un consenso médico en torno a la hidroxicloroquina a los pocos meses del brote —lo cual, cabe destacar, se reflejó en la literatura médica publicada en PubMed antes de 2021— y la FDA canceló su autorización de uso de emergencia en junio de 2020 .
Con esto no se pretende restar importancia a la impresionante evolución de los modelos de lenguaje generativo como BioGPT en los últimos meses y años. Al fin y al cabo, incluso las alucinaciones más extrañas de BioGPT son impresionantes en el sentido de que son respuestas semánticamente plausibles —y a veces incluso entretenidas, como con los fantasmas— a una asombrosa variedad de indicaciones impredecibles. No hace muchos años, su facilidad con las palabras habría sido inconcebible.
Y Poon probablemente tenga razón al creer que un mayor desarrollo de la tecnología podría llevarnos a resultados extraordinarios. Incluso Altman, el director ejecutivo de OpenAI, probablemente tenga razón al afirmar que, si la precisión fuera realmente absoluta, un chatbot médico capaz de evaluar los síntomas de los usuarios podría ser una valiosa herramienta de salud, o al menos, mejor que la práctica actual de buscar preguntas médicas en Google y, a menudo, obtener respuestas poco fiables, inescrutables o sin contexto.
Poon también señaló que su equipo todavía está trabajando para mejorar BioGPT.
«Hemos estado investigando activamente cómo prevenir sistemáticamente la generación incorrecta, enseñando a grandes modelos de lenguaje a verificarse a sí mismos, producir una procedencia muy detallada y facilitar una verificación eficiente con la participación humana», nos explicó.
A veces, sin embargo, parecía estar considerando dos nociones contradictorias: que BioGPT ya es una herramienta útil para los investigadores que buscan analizar rápidamente la literatura biomédica sobre un tema, y que sus resultados necesitan ser evaluados cuidadosamente por expertos antes de ser tomados en serio.
«BioGPT tiene como objetivo ayudar a los investigadores a optimizar el uso y la comprensión del creciente volumen de investigación biomédica», afirmó Poon, doctor en informática e ingeniería, pero sin título en medicina. «BioGPT puede ayudar a extraer información de artículos biomédicos, pero no está diseñado para evaluar la evidencia ni resolver problemas científicos complejos, que es mejor dejar en manos de la comunidad en general».
Al final del día, la llegada repentina de BioGPT al agitado e imperfecto mundo real de la IA es probablemente una señal de lo que vendrá, mientras un público crédulo y una frenética comunidad de startups luchan por ver más allá de resultados que parecen impresionantes para tener una comprensión más clara de las capacidades reales y tangibles del aprendizaje automático.
Todo esto se complica aún más por la existencia de malos actores, como advirtió Bik, o incluso aquellos que tienen buenas intenciones, pero están mal informados, cualquiera de los cuales puede usar las nuevas tecnologías de inteligencia artificial para difundir información errónea.
Musk, por ejemplo, que impulsó la hidroxicloroquina en un intento de restar importancia a la gravedad de la pandemia al tiempo que criticaba con furia los confinamientos que habían paralizado la producción de Tesla, ahora estaría reclutando personas para iniciar su propio competidor de OpenAI, que crearía una alternativa a lo que él llama «IA consciente».
Si la empresa de inteligencia artificial de Musk hubiera existido durante los primeros días de la pandemia de COVID, es fácil imaginarlo ejerciendo su poder modificando el modelo para promocionar la hidroxicloroquina, sembrar dudas sobre los confinamientos o hacer cualquier otra cosa que le convenga a sus finanzas o a sus caprichos políticos. La próxima vez que haya una crisis comparable, es difícil imaginar que no se desate una batalla feroz para controlar cómo se permite que los chatbots de IA respondan a las preguntas de los usuarios al respecto.
La realidad es que la IA se encuentra en una encrucijada. Su potencial puede ser considerable, pero su ejecución sigue siendo irregular, y si sus creadores logran optimizar la experiencia de los usuarios —o al menos garantizar la precisión de la información que presenta— en un plazo razonable probablemente determinará su potencial comercial a largo plazo. E incluso si lo logran, las implicaciones ideológicas y sociales serán formidables.
Una cosa es segura, sin embargo: aún no está del todo listo para el gran momento.
«En mi opinión, aún no está listo para su implementación», dijo Link sobre BioGPT. «Se necesitaría mucha más investigación, evaluación, capacitación y perfeccionamiento para cualquier aplicación posterior».