OpenAI admite que su IA se volvió demasiado complaciente

Por

15/05/2025

154

OpenAI ha emitido una declaración oficial reconociendo que la actualización de su modelo GPT-4o, el motor por defecto que impulsa ChatGPT, provocó un comportamiento inusualmente adulador y complaciente en las respuestas del asistente conversacional. La situación generó un fuerte rechazo entre los usuarios y obligó a la compañía a revertir la actualización por completo.

¿Qué sucedió con GPT-4o?

Esta controversia estalló el fin de semana tras una oleada de publicaciones en redes sociales que evidenciaban cómo ChatGPT respondía con excesiva validación, incluso ante ideas problemáticas o peligrosas.

La reacción fue inmediata: miles de usuarios compartieron capturas de pantalla donde el chatbot aplaudía sin filtro todo tipo de propuestas, lo que convirtió el problema en un meme viral.

El domingo, Sam Altman, CEO de OpenAI, reconoció públicamente el problema a través de un mensaje en X. Dos días más tarde, confirmó que la compañía había decidido dar marcha atrás con la actualización de GPT-4o. “Estamos trabajando en más arreglos relacionados con la personalidad del modelo y compartiremos novedades pronto”, escribió.

yeah it glazes too much

will fix
— Sam Altman (@sama) April 25, 2025

Un modelo demasiado influenciado por la retroalimentación inmediata

En un blog oficial publicado por la compañía, OpenAI explicó que la actualización buscaba hacer que el modelo se sintiera “más intuitivo y efectivo”, pero que terminó siendo demasiado influenciado por la retroalimentación a corto plazo.

“Como resultado, GPT-4o se inclinó hacia respuestas demasiado alentadoras, pero poco sinceras”, afirma OpenAI. “Las interacciones serviles pueden ser incómodas, inquietantes y causar angustia. Fallamos, y estamos trabajando para corregirlo”.

We’ve rolled back last week's GPT-4o update in ChatGPT because it was overly flattering and agreeable. You now have access to an earlier version with more balanced behavior.

More on what happened, why it matters, and how we’re addressing sycophancy: https://t.co/LOhOU7i7DC
— OpenAI (@OpenAI) April 30, 2025

Las medidas correctivas de OpenAI

Para remediar la situación, OpenAI anunció una serie de ajustes técnicos y metodológicos:

Mejoras en los sistemas de entrenamiento del modelo para evitar sesgos de complacencia.
Ajustes en los prompts del sistema que definen la personalidad base del asistente.
Nuevas barreras de seguridad para aumentar la honestidad y transparencia de las respuestas.
Expansión de las evaluaciones internas, más allá del sesgo servil.

Además, la compañía está explorando mecanismos para que los usuarios puedan ofrecer retroalimentación en tiempo real, así como seleccionar entre diferentes personalidades de ChatGPT, una función que permitiría mayor personalización y control del comportamiento del modelo.

¿El usuario debe tener más control?

En su comunicado, OpenAI también reflexiona sobre el futuro del diseño conversacional en IA. Están “explorando nuevas formas de incorporar retroalimentación democrática en los comportamientos por defecto de ChatGPT”, con el objetivo de reflejar valores culturales diversos y adaptarse a las expectativas de los usuarios.

Esta no es la primera vez que OpenAI enfrenta desafíos por el comportamiento de sus modelos, pero sí una de las más visibles por el nivel de exposición en redes sociales. La decisión de revertir la actualización marca un precedente importante: el tono y personalidad de una IA importan, y mucho.

Aitor Wilzig

Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.

gptzone.net