Google DeepMind, Meta y Nvidia saben que ya no basta con hablar, ahora quieren que la IA entienda el mundo físico. Este giro hacia modelos globales apunta a la “superinteligencia”, y puede afectar a robótica, vehículos autónomos y entretenimiento.
El mes pasado, Google DeepMind mostró Genie 3, que genera entornos 3D en tiempo real a partir de una sola imagen y tiene en cuenta interacciones previas. Meta, por su parte, entrena V-JEPA con vídeo sin procesar, replicando el aprendizaje pasivo infantil, y su laboratorio FAIR, liderado por Yann LeCun, empezó a probar en robots la segunda versión de V-JEPA en junio.
La apuesta por modelos globales llega mientras muchos dudan de si los grandes modelos de lenguaje se han estancado. Los avances recientes de OpenAI, Google y xAI se han ralentizado pese a inversiones masivas. Con todo, Rev Lebaredian, de Nvidia, sugiere que su potencial “podría rozar la economía mundial” al integrarse en sanidad, manufactura y más.
“La nueva generación de modelos de IA revolucionará la robótica.” —Jensen Huang, CEO de Nvidia. La compañía, valorada en 4,3 billones de dólares, habla de IA física como próxima fase de crecimiento, con foco en robots y agentes capaces de planificar. Si lo comparamos con la app móvil de un chatbot, aquí buscas algo distinto: comprensión del movimiento, de la causa y efecto, y de la fricción del mundo.
¿Por qué importa para ti? Porque con modelos globales vas a poder ver coches que anticipan maniobras, brazos robóticos que aprenden nuevas tareas y agentes de IA que coordinan procesos en fábricas y hospitales. La trampa está en el entrenamiento: se necesitan flujos gigantes de datos reales o simulados y potencia de cálculo descomunal, y el problema técnico no está resuelto del todo.
Las piezas para verificarlo están a la vista. DeepMind detalla avances en su web, y Meta describe V-JEPA en su nota técnica de referencia (el modelo V-JEPA de Meta). Para datos del mundo físico, Niantic ha mapeado 10 millones de ubicaciones gracias a la interacción de sus 30 millones de jugadores mensuales con un mapa global, lo que aporta materia prima para modelos globales (Niantic). Y para simular la realidad, la plataforma Omniverse de Nvidia permite crear y ejecutar mundos con físicas controladas.
También te puede interesar:G-Assist de Nvidia: Ahora con Plugins para Spotify, Twitch y GeminiUn modelo global aprende una representación del mundo para predecir cómo cambian los objetos con tus acciones. No se queda en el lenguaje, integra vídeo, audio y señales de robots para entender contexto y consecuencias. Por eso, cuando Genie 3 “imagina” un entorno 3D, usa lo que ha visto y las interacciones previas para mantener coherencia. Esa memoria física es la base de su ventaja sobre un chatbot.
El coste es alto: hacen falta sensores, simuladores y datos de larga duración, y entrenar exige granjas de cómputo que pocas empresas tienen. Nvidia y Niantic están cubriendo ese hueco de datos y simulaciones.
¿Qué viene ahora? El laboratorio FAIR ya prueba V-JEPA v2 en robots desde junio, y DeepMind prepara siguientes pasos de Genie 3 tras su presentación del mes pasado. Nvidia empuja su hoja de ruta de IA física para acelerar la robótica industrial. LeCun calcula que alcanzar inteligencia a nivel humano podría llevar “aún una década”. Señales a vigilar: más pilotos en fábricas, mejores benchmarks en manipulación y más demos con memoria de interacción.
Con todo, el camino no será lineal. Entrenar modelos globales requiere recopilar datos del entorno a escala y asegurar seguridad en sistemas que actúan en el mundo. Al final, los modelos globales no sustituyen a los LLM, los completan. Este enfoque ya crea escenas interactivas, promete robots más capaces y abre un mercado que, según Nvidia, puede tocar casi todos los sectores.
Si te interesa seguir la pista a avances prácticos de Meta, sus publicaciones sobre IA suelen marcar los próximos hitos, y sirven para medir hasta dónde llega la nueva ola de inteligencia artificial física.
También te puede interesar:Estados Unidos Bloquea la Venta de chips de IA a Emiratos Árabes por Temor a Filtraciones a ChinaDirectora de operaciones en GptZone. IT, especializada en inteligencia artificial. Me apasiona el desarrollo de soluciones tecnológicas y disfruto compartiendo mi conocimiento a través de contenido educativo. Desde GptZone, mi enfoque está en ayudar a empresas y profesionales a integrar la IA en sus procesos de forma accesible y práctica, siempre buscando simplificar lo complejo para que cualquiera pueda aprovechar el potencial de la tecnología.