Una nueva investigación investiga cómo funcionan los modelos de lenguaje a gran escala en una variedad de situaciones médicas, incluidos casos de salas de emergencia de la vida real. Allí, al menos un modelo parece ser más preciso que los médicos humanos.
El estudio, publicado esta semana en la revista Science, es obra de un equipo de investigación dirigido por médicos e informáticos de la Facultad de Medicina de Harvard y el Centro Médico Beth Israel Deaconess. Los investigadores dijeron que realizaron varios experimentos para medir cómo se comparan los modelos de OpenAI con los médicos humanos.
En un experimento, los investigadores se centraron en 76 pacientes que acudieron a la sala de emergencias de Beth Israel y compararon los diagnósticos proporcionados por dos internistas con los diagnósticos generados por los modelos o1 y 4o de OpenAI. Estos diagnósticos fueron evaluados por otros dos médicos de atención primaria, pero no estaba claro cuáles eran humanos y cuáles estaban basados en IA.
«En cada punto de contacto de diagnóstico, O1 tuvo un desempeño nominalmente mejor o igual que dos médicos de atención primaria y 4O», dijo el estudio, y agregó que la diferencia fue «particularmente pronunciada en el primer punto de contacto de diagnóstico (clasificación temprana en la sala de emergencias), cuando hay menos información disponible sobre el paciente y es más urgente tomar la decisión correcta».
En un comunicado de prensa de la Facultad de Medicina de Harvard sobre el estudio, los investigadores enfatizaron que «no se realizó ningún preprocesamiento de datos». El modelo de IA se presentó con la misma información que estaba disponible en la historia clínica electrónica en el momento de cada diagnóstico.
Armado con esa información, el modelo o1 pudo proporcionar «diagnósticos precisos o muy cercanos» en el 67% de los casos de clasificación. Mientras tanto, un médico acertó o estuvo muy cerca del diagnóstico el 55% de las veces, y el otro médico acertó el 50% de las veces.
«Probamos nuestro modelo de IA con casi todos los puntos de referencia y superó tanto a los modelos anteriores como a las líneas de base de los médicos», dijo en un comunicado de prensa Arjun Manraj, director del Laboratorio de IA de la Facultad de Medicina de Harvard y uno de los autores principales del estudio.
evento de crisis tecnológica
San Francisco, California
|
13-15 de octubre de 2026
Para ser claros, este estudio no afirma que la IA esté lista para tomar decisiones reales de vida o muerte en las salas de emergencia. En cambio, dijo que los hallazgos demuestran «una necesidad urgente de ensayos clínicos prospectivos para evaluar estas tecnologías en entornos de atención al paciente del mundo real».
Los investigadores también señalaron que sólo estudiaron cómo se comporta el modelo cuando se les proporciona información basada en texto, y que «las investigaciones existentes sugieren que los modelos subyacentes actuales son más limitados en sus inferencias a entradas que no son de texto».
Adam Rodman, médico de Beth Israel y uno de los autores principales del estudio, advirtió en The Guardian que «actualmente no existe un marco formal de responsabilidad» para los diagnósticos de IA, y que los pacientes todavía «quieren que los humanos los guíen a través de decisiones de vida o muerte y los guíen a través de decisiones de tratamiento difíciles».
En una publicación sobre el estudio, la médica de urgencias Kristen Pantagani dijo que era un «estudio interesante sobre IA que dio lugar a titulares muy publicitados», especialmente porque comparaba los diagnósticos de IA con los de los internistas en lugar de los de los médicos de urgencias.
«Si desea comparar una herramienta de inteligencia artificial con las capacidades clínicas de un médico, debe comenzar comparándola con un médico que realmente ejerza esa especialidad», dijo Pantagani. «No me sorprendería que un LLM pudiera vencer a un dermatólogo en el examen de la junta de neurocirugía, pero no es particularmente útil saberlo».
«Mi objetivo principal como médico de urgencias que atiende a un paciente por primera vez no es adivinar el diagnóstico final. Mi objetivo principal es determinar si tiene una enfermedad potencialmente mortal», afirmó también.
Esta publicación y titular se han actualizado para reflejar el hecho de que el diagnóstico del estudio provino del médico tratante en medicina interna y para incluir comentarios de Kristen Pantagani.
Si compra a través de enlaces en nuestros artículos, podemos ganar una pequeña comisión. Esto no afecta la independencia editorial.
Source link
