¿Dejarías que un algoritmo decida qué enfermedad tienes cuando llegas sangrando a la puerta de un hospital? Probablemente tu instinto te diga que no, pero los fríos números empiezan a apuntar en otra dirección. Un reciente estudio conjunto entre la Harvard Medical School y el Beth Israel Deaconess Medical Center ha lanzado un órdago al sector sanitario. Y es que el modelo o1 de OpenAI ha logrado igualar, y en muchos casos superar, la precisión diagnóstica de médicos humanos en situaciones reales de urgencias médicas.

La nueva IA de OpenAI destroza las métricas en la fase de triaje

Si miramos los números con lupa, la demostración de músculo técnico es innegable. El equipo investigador agarró los historiales de 76 pacientes reales que pasaron por las urgencias del Beth Israel. Luego, enfrentó a dos médicos especialistas en medicina interna contra el software de OpenAI, específicamente usando sus modelos o1 y 4o. A ambos bandos se les dio exactamente la misma información cruda, sin preprocesar los datos para facilitarle la inferencia al LLM. Después, un par de médicos extra evaluaron a ciegas los diagnósticos resultantes.

Y el resultado asusta bastante. Resulta que en la fase crítica del triaje inicial, donde reina el caos y la información es mínima, la máquina fue francamente superior. El modelo o1 devolvió diagnósticos exactos o extraordinariamente cercanos en el 67 % de los casos. Una auténtica locura. Mientras tanto, los dos profesionales humanos que sirvieron de benchmark se estancaron en un modesto 55 % y un 50 %. Básicamente, ante la falta de contexto evidente, el pipeline de razonamiento del algoritmo acertó mucho más que la experiencia clínica de carne y hueso.

Todos los pormenores metodológicos de este ensayo están en el paper publicado esta semana en Science. Además, leyendo entre líneas el comunicado de prensa lanzado por la universidad, queda clarísimo que consideran a la versión o1 como un salto cualitativo gigantesco respecto a generaciones previas. La IA ni se inmuta ante historiales desordenados y confusos.

La trampa de los datos de texto y el sesgo de especialidad

Pero claro, aquí toca pinchar un poco la burbuja de la emoción tecnológica. Antes de que las aseguradoras piensen en ahorrar costes automatizando el diagnóstico, hay que revisar la letra pequeña. El gran fallo de esta prueba es que la IA fue alimentada única y exclusivamente con información de texto. Los profesionales de urgencias no se limitan a leer notas en un ordenador. Tocan al paciente, escuchan cómo respira y detectan si está pálido, sudoroso o alterado. Un modelo de IA, por mucho rendimiento que prometa, no tiene ojos en la sala de triaje.

A ello se le suma un debate muy polémico sobre cómo se planteó la comparativa médica. Pusieron a competir a la inteligencia artificial con internistas, no con especialistas de urgencias puros y duros. Como bien desgrana un artículo sobre el estudio, la misión principal en un box de emergencias casi nunca es clavar el diagnóstico final a la primera de cambio. Tu objetivo vital real ahí abajo es detectar rápidamente las dos o tres condiciones graves que pueden matarte en horas y descartarlas. Es una filosofía de trabajo totalmente distinta.

El abismo legal frente a un error de cálculo médico

Evidentemente, la velocidad del desarrollo de software va años por delante de nuestras leyes vigentes. Si un modelo de OpenAI se equivoca en la urgencia por una alucinación y el paciente sufre un infarto fatal en su casa, ¿a quién le pides explicaciones? A día de hoy, no tenemos ningún tipo de marco de responsabilidad formal para sentar en un banquillo a un algoritmo. Nadie quiere asumir esa factura millonaria.

Por si fuera poco, los propios médicos en primera línea son tremendamente cautos con los titulares ruidosos. Una doctora especialista en emergencias ya advirtió a The Guardian que comparar disciplinas clínicas que operan bajo presiones distintas es poco útil para la realidad médica. Los pacientes, cuando la situación clínica se vuelve crítica, siguen necesitando el componente de confianza que solo te da otro ser humano mirándote a los ojos.

Los propios autores admiten que faltan toneladas de ensayos prospectivos en condiciones reales antes de cantar victoria definitiva. Nadie duda de que estas herramientas serán el mejor copiloto posible para los sanitarios del mañana, capaces de cruzar datos a velocidades inhumanas. Sin embargo, dejarles apretar el botón rojo de la decisión final es un salto al vacío que no estamos listos para dar. La pelota está ahora en el tejado de los organismos reguladores para ponerle riendas a esta tecnología antes de que se adentre de lleno en nuestros hospitales.

0 0 votos
Valoración del artículo
Suscribirte
Notificar sobre
guest
0 Comentarios
Más Antiguos
Más Nuevos Más Votados
Comentarios en línea
Ver todos los comentarios