Claude for HealthcareAnthropicManus AIapple1XWMCoworkClaudeMetaAstrobeeAmazonIA físicaIA / Inteligencia ArtificialAgentes IAChatGPTAlphaFold

1X Presenta el Modelo 1XWM Para su Plataforma de Robots NEO

 | enero 13, 2026 06:06

1X Technologies acaba de incorporar una pieza clave a su robot humanoide NEO: 1XWM, un “modelo del mundo” preentrenado con vídeo que promete que el robot comprenda el entorno doméstico de una forma mucho más cercana a cómo lo haría una persona.

No se trata de un simple ajuste estético o incremental, sino de un cambio de enfoque profundo dentro de lo que la industria denomina embodied AI (IA encarnada), donde la inteligencia artificial no solo describe el mundo, sino que interactúa activamente con él y toma decisiones físicas en tiempo real.

El despliegue inicial, eso sí, avanza con cautela. Por ahora, el acceso está limitado a un grupo reducido enfocado en investigación y evaluación interna, con la vista puesta en un lanzamiento comercial más amplio una vez se obtenga validación adicional.

1XWM cambia la receta típica de visión-lenguaje-acción

1X define 1XWM como un salto relevante frente a los modelos tradicionales de visión-lenguaje-acción (VLA), que suelen depender en gran medida de demostraciones robóticas directas y altamente controladas.

En lugar de eso, el núcleo del sistema se basa en un preentrenamiento masivo con vídeo a escala de internet, combinado con datos egocéntricos tanto de humanos como de robots. De este modo, el modelo aprende observando “lo que vería una persona” mientras realiza acciones reales, y no solo a partir de descripciones textuales o imágenes aisladas.

1XWM cambia la receta típica de visión-lenguaje-acción

Más allá del término llamativo, el valor está en el mecanismo: 1XWM predice acciones mediante la generación de rollouts de vídeo condicionados por texto. En la práctica, el sistema imagina visualmente cómo debería desarrollarse una escena cuando el robot ejecuta una tarea concreta.

Estos rollouts no son el resultado final. Posteriormente, se traducen en comandos de movimiento gracias a un Modelo de Dinámica Inversa (Inverse Dynamics Model), convirtiendo el plan visual en instrucciones precisas como trayectorias de brazos, movimientos de muñeca o patrones de agarre.

El dato gordo: 14.000 millones de parámetros, y 11 segundos de espera

El modelo base es un generador de vídeo con 14.000 millones de parámetros, una escala que ya recuerda a la de los grandes modelos de lenguaje, pero aplicada al mundo físico y visual.

Además, no se trata de un sistema genérico adaptado a última hora. 1XWM ha sido afinado específicamente para la morfología humanoide de NEO, teniendo en cuenta sus límites físicos, rangos de movimiento y forma real de interactuar con objetos cotidianos.

El principal cuello de botella, como suele ocurrir en la robótica actual, es la latencia. En su estado actual, la inferencia tarda alrededor de 11 segundos por cada rollout, una cifra elevada si se compara con la reactividad humana.

El dato gordo: 14.000 millones de parámetros, y 11 segundos de espera

Aun así, esta latencia puede ser aceptable cuando el robot planifica secuencias complejas que luego se ejecutan mediante controles más rápidos a bajo nivel. Para mejorar este aspecto, 1X ha colaborado con especialistas en infraestructura cloud de Verda, con el objetivo de optimizar la velocidad de inferencia.

La meta es clara: reducir la latencia y acercar el sistema a una autonomía doméstica más realista, menos centrada en demostraciones puntuales y más en tareas rutinarias.

Lo que realmente importa: generalización y tareas que no vio en el entrenamiento

Uno de los puntos más destacados de 1XWM es su capacidad de generalización. Según la compañía, el modelo se comporta mejor ante objetos y movimientos novedosos que sistemas comparables desarrollados por otros laboratorios.

En robótica, esta capacidad no es un detalle menor. Marca la diferencia entre un robot que funciona en condiciones de laboratorio y otro que no se bloquea cuando una taza se sustituye por un vaso ligeramente distinto.

Las mejoras se observan especialmente en tareas que no estaban presentes durante el entrenamiento, lo que sugiere un comportamiento menos dependiente de la memoria y más basado en la comprensión de dinámicas físicas.

Conviene recordar que generalizar en un chatbot no es lo mismo que hacerlo con un cuerpo humanoide. Aquí entran en juego fricciones reales: agarres que fallan, objetos que resbalan, manos que interfieren entre sí y un entorno que no se adapta al robot.

Coordinación bimanual y manipulación robusta: la prueba del algodón

Los primeros comentarios de usuarios y los benchmarks internos indican que el modelo se defiende bien en tareas complejas del mundo real, como la coordinación bimanual y la manipulación robusta de objetos.

Cualquiera que haya seguido el desarrollo de la robótica doméstica sabe que “coger un objeto” parece trivial hasta que se intenta repetir la acción cientos o miles de veces con fiabilidad constante.

Según 1X, las tasas de éxito igualan o incluso superan a las de modelos anteriores. Esto sugiere que no solo hay mejoras conceptuales, sino también un rendimiento práctico superior, aunque siempre conviene analizar este tipo de métricas con cautela.

1X Asegura una Venta Masiva de Robots Neo y Cambia su Estrategia Hacia la Industria

Un aspecto clave señalado por expertos es el uso de datos egocéntricos humanos junto con un captioning detallado durante el entrenamiento. Esta combinación favorece comportamientos más físicamente plausibles y coherentes, alineando lo que el modelo ve, interpreta y ejecuta.

Por qué este enfoque puede ahorrar miles de horas de demostraciones

El enfoque de 1XWM busca reducir drásticamente la necesidad de decenas de miles de horas de demostraciones robóticas. En lugar de grabar al robot repitiendo tareas de forma exhaustiva, el modelo aprende patrones a partir de grandes volúmenes de vídeo y luego se adapta con mucha menos supervisión directa.

Esto no elimina el trabajo complejo, pero sí lo desplaza hacia el preentrenamiento y el diseño del pipeline que convierte el “vídeo imaginado” en control motor estable y seguro.

Si esta estrategia logra escalar, podría acelerar notablemente el desarrollo: más iteraciones en menos tiempo, incorporación de nuevas tareas con mayor rapidez y menor dependencia de datasets extremadamente costosos.

La robótica doméstica no consiste en ejecutar un único truco, sino en encadenar decenas de microdecisiones sin provocar fallos en un entorno real. Por eso, 1X también está apostando por hardware escalable que acompañe a estos modelos más ambiciosos.

Queda por ver si, tras esta fase limitada, la compañía consigue reducir la latencia, mantener la generalización y convertir a NEO en algo más que un robot llamativo en vídeos promocionales.

Si 1XWM cumple lo que promete, el mensaje para la competencia es claro e incómodo: tal vez el camino hacia robots realmente útiles no pase por programarlos más, sino por enseñarles el mundo en vídeo… y permitirles imaginarlo antes de mover un solo dedo.

Copyright © gptzone.net

La Newsletter Diaria Sobre Inteligencia Artificial. Además: Portal de Noticias, Tutoriales, Tips y Trucos de ChatGpt, Openai e Inteligencia Artificial.

Nuestra web está alojada en:

hosting raiola

Suscríbete a nuestra Newsletter Diaria sobre IA

 

Suscríbete a GptZone y recibe cada día TOTALMENTE GRATIS:

 

  • 📰 Noticias Exclusivas de Inteligencia Artificial.
  • 🤖 Prompts Creativos y prácticos.
  • 🎥 Videos Inspiradores sobre IA.
  • 🛠️ Apps Recomendadas para revolucionar tu día a día.

Te has suscrito Satisfactoriamente!

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram