Un empleado de OpenAI ha levantado una controversia al acusar a xAI de manipular los resultados de benchmarks para su modelo Grok 3. La discusión se centra en la precisión de los datos presentados por xAI en su gráfico, que muestra a Grok 3 superando a o3-mini-high de OpenAI en la competencia AIME 2025. Las implicaciones de estas acusaciones podrían afectar la credibilidad de los benchmarks de IA, un aspecto crucial en la evaluación de modelos de inteligencia artificial.
Igor Babushkin, cofundador de xAI, ha salido al paso para defender la integridad de su empresa. Según Babushkin, xAI está convencida de que sus datos son correctos y que la verdadera “IA más inteligente del mundo” es Grok 3. Sin embargo, empleados de OpenAI han señalado que el gráfico de xAI omitió incluir la puntuación de o3-mini-high en el benchmark cons@64, lo que podría alterar significativamente la percepción del rendimiento de estos modelos de IA.
Disappointing to see the incentives for the grok team to cheat and deceive in evals.
— Boris Power (@BorisMPower) February 20, 2025
Tl;dr o3-mini is better in every eval compared to grok 3.
Grok 3 is genuinely a decent model, but no need to over sell. https://t.co/sJj5ByVikp
El debate sobre la validez de los benchmarks de IA es más relevante que nunca. Los gráficos presentados por xAI destacaron el rendimiento de Grok 3 en AIME 2025, superando al modelo o3-mini-high. Pero la ausencia de datos sobre cons@64, una métrica que permite 64 intentos para resolver cada problema, ha levantado sospechas sobre la imparcialidad de esta comparación.
En cons@64, un modelo puede mejorar drásticamente sus puntuaciones al tener múltiples oportunidades para responder, lo que sugiere que las puntuaciones de Grok 3 en AIME 2025 en @1 pueden no ser tan impresionantes al compararlas con las de o3-mini-high. Esta laguna en la presentación de datos ha llevado a Babushkin a argumentar que OpenAI también ha caído en prácticas similares en el pasado, publicando gráficos que podrían interpretarse como “engañosos”.
Las métricas como cons@64 son fundamentales para entender el verdadero desempeño de los modelos de IA. Al permitir múltiples intentos, estas pruebas ofrecen una visión más completa de las capacidades de un modelo, aunque también aumentan el coste computacional y monetario. Este es un detalle que, según expertos, xAI y otras compañías deberían comunicar con más claridad. La falta de información detallada sobre las limitaciones y fortalezas de los modelos puede causar confusión y afectar la confianza en los benchmarks de IA.
También te puede interesar:Grok 3: El Nuevo Modelo de xAI ya está DisponibleHilarious how some people see my plot as attack on OpenAI and others as attack on Grok while in reality it’s DeepSeek propaganda
— Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex) February 20, 2025
(I actually believe Grok looks good there, and openAI’s TTC chicanery behind o3-mini-*high*-pass@”””1″”” deserves more scrutiny.) https://t.co/dJqlJpcJh8 pic.twitter.com/3WH8FOUfic
La transparencia en la validación de benchmarks de IA es crucial para garantizar la confianza en estos modelos. Un gráfico más preciso, que incluya el rendimiento de casi todos los modelos en cons@64, podría ofrecer una imagen más equilibrada del panorama actual. Sin embargo, el coste de lograr la mejor puntuación aún no está claro, lo que sugiere que hay mucho por descubrir sobre cómo se están evaluando realmente estos modelos.
El debate sobre los benchmarks de IA y la evaluación de modelos de inteligencia artificial sigue siendo un tema candente, con implicaciones significativas para el futuro de la IA. A medida que las empresas continúan desarrollando y promoviendo sus modelos, la transparencia y la claridad en la presentación de datos serán esenciales para mantener la confianza del público y de los inversores.
Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.