Lo próximo tras ChatGPT no es otro chatbot, sino una IA que intenta “entender” la física cotidiana. Hablamos de los grandes modelos de mundo (LWM, por sus siglas en inglés), una nueva categoría que quiere recrear el entorno que tú percibes con tus sentidos.
Google mostró Genie 3, capaz de generar entornos virtuales en tiempo real, y Meta presentó V-JEPA 2, centrado en comprensión visual avanzada. Nvidia, por su parte, anunció en 2025 la plataforma Cosmos para robots y vehículos autónomos.
Si lo comparamos con la app móvil de un LLM, verás la diferencia enseguida. Un LLM conversa y resume texto. Un LWM intenta modelar la realidad física y predecir cómo evoluciona. Aquí el “siguiente token” puede ser una palabra, pero también un fotograma de vídeo, una coordenada en el espacio o la acción de un robot. Esa ambición exige datos que hoy no sobran.
Para llegar ahí, estos sistemas mezclan muchas fuentes: texto, imagen y audio, pero también señales ligadas por espacio y tiempo. Entran sensores como LiDAR y acelerómetros, y la magia está en su combinación secuencial y contextual. Con todo, ese cruce de pistas permite anticipar eventos físicos: un coche podría oír un patinete antes de verlo y frenar a tiempo ante un niño que salta a la calzada.
¿Para qué te sirve? Con grandes modelos de mundo, vas a poder crear videojuegos dinámicos, simular un metaverso realista y, sobre todo, mejorar la robótica autónoma. V-JEPA 2 ya impulsa robots que manipulan objetos desconocidos y se mueven en lugares nuevos. La programación se acelera, porque el modelo predice resultados como la presión justa para agarrar un vaso, y reduce ensayos físicos costosos.
Hay un cuello de botella: faltan datos del mundo físico. Waymo (Google) y Tesla recogen información continua con cámaras y sensores para entrenar conducción, pero no basta. Las empresas graban el entorno en tiempo real para alimentar grandes modelos de mundo, porque sin volumen y variedad, el sistema no generaliza. Aquí está la trampa que frenaba el salto.
En una frase: un LWM es un modelo que aprende una representación del mundo para predecir lo que ocurrirá y decidir acciones útiles. Su núcleo es la predicción multimodal del “siguiente token” en una secuencia espacio‑temporal, no solo la siguiente palabra. Así se entrena para conectar causas y efectos físicos.
Los ejemplos públicos ayudan a calibrar expectativas. Genie 3 genera entornos virtuales en tiempo real a partir de señales de entrada. V-JEPA 2 aprende a prever la evolución visual sin etiquetas exhaustivas. Y Nvidia Cosmos promete cerrar el ciclo entre simulación y despliegue en robots y coches. Datos y demos públicas revisadas en abril de 2025: Google Genie 3, Meta V-JEPA 2 y Nvidia Cosmos.
Los grandes modelos de mundo heredan problemas de los LLM y suman otros. Puede haber alucinaciones físicas, sesgos por datos incompletos y choques de privacidad al grabar entornos reales. Necesitas mecanismos explicables y métricas de incertidumbre para confiar en respuestas y acciones. El compromiso de la industria con estas protecciones sigue siendo bajo, como ya vimos con la IA generativa.
¿Qué mirar a corto plazo? Señales como nuevas bases de datos multimodales, benchmarks de manipulación y conducción más duros, y pilotos reales en almacenes y fábricas. Si ves mejoras de generalización entre dominios distintos, prepárate para robots que cambian de tarea sin reentrenar. Si la seguridad no avanza, llegará regulación que frene despliegues en 2026.
La dirección es clara: si logran datos suficientes y buenas garantías, los grandes modelos de mundo van a permitir que un servicio web, un coche o un robot tomen decisiones con más contexto del mundo. La confianza dependerá de cómo midan su propia duda y de cuánto protejan tu privacidad.
Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.