Un estudio de marzo de 2025 publicado en npj Digital Medicine revela que al evaluar a ChatGPT en 48 tareas estándar de cálculo médico, el modelo falló en una de cada tres consultas. Pero cuando se le agregó una calculadora médica específica, la precisión saltó del 4,8% al 95% y el margen de error se redujo 13 veces.

El hallazgo no apunta a un cerebro digital más brillante. Apunta a otro mecanismo: la capacidad de apoyarse en herramientas externas. Esa misma idea aparece en un análisis de The Wall Street Journal y en un estudio de Apple de octubre de 2024, que probó más de 20 modelos con 5.000 problemas matemáticos y mostró que su rendimiento cae cuando se cambian solo los números o se suma información irrelevante.

Experto instaló en una calculadora cientifica ChatGPT

Gary Marcus subraya que estos modelos siguen siendo poco fiables por sí solos, pero se vuelven útiles cuando se combinan con tecnologías deterministas.

La mejora reciente de la IA funciona así: no cambió la “cabeza”, cambió la caja de herramientas. En lugar de confiar en su memoria, el sistema delega cálculos a Python (programa para operar números), consulta buscadores para datos actuales y, en muchos casos, pasa su respuesta por un segundo modelo que la revisa antes de entregarla.

También te puede interesar:OpenAI Mejora la Memoria de ChatGPT para acordarse de todos tus chats

Ese engranaje explica por qué hoy millones de personas perciben respuestas más robustas. Los modelos usados por unos 500 millones de usuarios cada semana son más fiables que hace un año, pero no por un salto hacia la superinteligencia. La clave estuvo en tres piezas: conocimiento experto humano, herramientas externas y auditoría entre modelos.

El interruptor real no es la inteligencia, sino la verificación

OpenAI informó que su modelo principal actual comete un 26% menos de errores factuales que GPT-4o. No es un detalle menor. Muestra que la central del sistema ya no depende solo del modelo, sino de un cableado adicional que comprueba, corrige y contrasta.

El interruptor real no es la inteligencia, sino la verificación

Incluso un error de Anthropic dejó ver ese mecanismo interno. La exposición del código de Claude Code mostró instrucciones explícitas para verificar información en lugar de confiar en la memoria del modelo. Es decir, los propios desarrolladores diseñan estas herramientas desde la desconfianza.

Y eso revela otra oportunidad de lectura. El marketing habla de “razonamiento avanzado”, pero la implementación real se parece más a una oficina bien organizada: una persona redacta, otra revisa, una calculadora hace cuentas y un buscador trae el dato fresco. El valor no está en un empleado milagroso, sino en el sistema.

También te puede interesar:OpenAI Mejora la Memoria de ChatGPT para acordarse de todos tus chats
También te puede interesar:La cortesía con la IA sale caro: ¿Vale la pena decir “por favor” a ChatGPT?

Por eso, pensar que una simple suscripción a un chatbot puede reemplazar empleados es una visión incompleta. Las soluciones útiles de IA son arquitecturas complejas que mezclan modelos de lenguaje, código tradicional y capas de control. En la práctica, hacen falta más ingenieros capaces de integrar componentes, no menos personas.

La señal para empresas y usuarios es concreta. Conviene usar la IA como apoyo, sobre todo en tareas donde pueda consultar, calcular o verificar. Y conviene desconfiar de las respuestas cerradas cuando no muestran su mecanismo.

La IA de este año no encontró un cerebro nuevo. Encontró, más bien, el interruptor correcto: dejar de trabajar sola y empezar a chequear antes de hablar.

0 0 votos
Valoración del artículo
Suscribirte
Notificar sobre
guest
0 Comentarios
Más Antiguos
Más Nuevos Más Votados
Comentarios en línea
Ver todos los comentarios