La carrera por medir qué tan bien trabaja la IA frente a personas de carne y hueso ya tiene una nueva vara de medir. OpenAI ha presentado GDPval, un benchmark que compara informes creados por modelos con informes redactados por profesionales de múltiples sectores. La idea es sencilla: evaluar tareas con impacto económico real y […]