¿Cuántas veces una toalla “se resiste” y termina hecha un bollo, o una construcción de LEGO se desarma con un tirón de más y se rompe lo que no querías? En la casa, lo tedioso no es solo el trabajo. Es la tensión de aplicar la fuerza justa, en el momento justo, sin arruinar nada.
Ahora, Xiaomi dice haber encontrado un engranaje clave para que los robots dejen de ser brazos rígidos y pasen a ser ayudantes con criterio. La empresa presentó Xiaomi-Robotics-0, su primer modelo de visión, lenguaje y acción orientado a robótica, y lo liberó como open source (código abierto) en GitHub y Hugging Face.

El hallazgo no apunta a que un robot camine “como humano” ni a piruetas de ciencia ficción. La central está en otra parte: que un robot relativamente sencillo entienda lo que tiene delante, interprete el contexto y ejecute una acción suave en tiempo real, sin dañar los objetos que manipula.
Porque en robótica no alcanza con moverse. La IA tiene que reconocer qué está tocando y decidir cuánta fuerza aplicar. Un ladrillo y un gato pueden tener tamaño parecido. Pero el mecanismo correcto de agarre es opuesto. Y ese “interruptor” de decisión es lo que distingue a una máquina útil de una peligrosa.
La clave es que Xiaomi-Robotics-0 combina tres cables en el mismo circuito: visión, lenguaje y acción. En términos simples, primero “ve”, después “entiende” y finalmente “hace”. Y lo hace con una lógica del tipo: “esto es pesado, puedo apretar más” o “esto es frágil, mejor sostener desde otro ángulo”.
Una analogía doméstica ayuda a bajarlo a tierra: es como pasar de una pinza fija a una mano con sensibilidad. La pinza puede cerrar siempre igual, sin importar lo que agarre. La mano, en cambio, ajusta la presión cuando toma una copa, una papa o un paquete blando. Xiaomi busca que ese ajuste sea automático, como un regulador de luz que sube o baja según la habitación.
Además, el modelo está optimizado para rendimiento y suavidad en tiempo real. Esa parte es menos glamorosa, pero es la pieza clave para que un robot no “piense” tarde. En la vida física, un segundo de demora puede ser un golpe, una caída o un objeto aplastado.
Según la empresa, Xiaomi-Robotics-0 logró muy buenos resultados en tres benchmarks (pruebas comparativas): LIBERO (transferencia de conocimiento entre tareas), SimplerEnv (simulaciones realistas) y CALVIN (tareas guiadas por instrucciones en lenguaje natural).

Pero donde se ve la oportunidad práctica es en dos tareas bimanuales: desmontar LEGO y doblar toallas. Xiaomi afirma que el sistema puede desarmar estructuras complejas de hasta 20 piezas, ajustando en tiempo real la fuerza y la forma de sujeción para no cometer errores. En toallas, puede acomodar una con una mano y luego doblarla; y si el robot levanta dos del cesto, es capaz de elegir una, dejar la otra y ejecutar el plan.
Detrás de esa aparente simpleza hay números: el modelo tiene 4.700 millones de parámetros (variables internas que ajustan su comportamiento) y se entrenó con 200 millones de pasos de tiempo de trayectorias de robots, más 80 millones de muestras de visión-lenguaje. En el dataset también hay 338 horas de video desmontando LEGO y 400 horas doblando toallas.
Tradicionalmente, los robots industriales se programaron con coordenadas fijas, como seguir marcas en el piso. Funcionan perfecto cuando nada cambia. Pero se traban cuando el mundo real se desordena, como una toalla arrugada o una pieza girada.
Por eso, el salto conceptual es importante: un robot clásico aprende movimientos. Un robot con este tipo de IA aprende tareas. Y una tarea incluye excepciones, elección y cuidado.
Si ese mecanismo madura, la rutina doméstica también cambia: un robot no solo “pasaría el trapo”, sino que identificaría adornos, decidiría qué mover, cuánto apretar y cómo dejar todo en su sitio. Como quien ordena una mesa sin tirar nada, pero con manos que no se cansan.

Directora de operaciones en GptZone. IT, especializada en inteligencia artificial. Me apasiona el desarrollo de soluciones tecnológicas y disfruto compartiendo mi conocimiento a través de contenido educativo. Desde GptZone, mi enfoque está en ayudar a empresas y profesionales a integrar la IA en sus procesos de forma accesible y práctica, siempre buscando simplificar lo complejo para que cualquiera pueda aprovechar el potencial de la tecnología.