¿Alguna vez te dio vértigo dejar que una herramienta “haga clic por ti” en tu computadora? No es solo pereza digital. Es esa intuición doméstica de que, si alguien más toca tus llaves, también podría abrir puertas que no querías abrir.
En esa tensión aparece Molbot, antes llamado Clawdbot, uno de los grandes fenómenos de la IA a finales de enero por su potencia como agente. El hallazgo que más llamó la atención no fue un truco vistoso, sino un mecanismo de autoprotección: Molbot advierte sobre sus propios riesgos incluso antes de ser instalado.

Sin embargo, esa sensación de que Molbot era “único” tenía un cableado flojo. En abril de 2025 ya se había lanzado UI-TARS-1.5, un agente multimodal (usa texto e imagen) y de código abierto (cualquiera puede auditarlo), desarrollado por ByteDance, la empresa detrás de TikTok y uno de los actores centrales de IA en China. En Occidente pasó más desapercibido.
La pieza clave no es quién “piensa mejor”, sino cómo se conectan al escritorio. Y ahí, UI-TARS-1.5 y Molbot juegan dos partidos distintos.
UI-TARS-1.5 está diseñado para interactuar con el mundo digital a través de la interfaz gráfica. En concreto, “mira” la pantalla, identifica elementos visuales y actúa con ratón y teclado, como lo haría una persona. A diferencia de Molbot, no ejecuta código ni comandos directamente en el sistema operativo.
La analogía es simple: UI-TARS es como un invitado que usa tus electrodomésticos; Molbot se parece más a alguien que entra al tablero eléctrico.
En una casa, tocar el tablero general es poderoso. También es peligroso. Si algo sale mal, no se rompe solo una lámpara: se puede apagar todo. En términos digitales, ejecutar comandos directos es ese “tablero”: habilita acciones rápidas, pero abre la puerta a daños por ejecución arbitraria.
En cambio, UI-TARS-1.5 opera “desde afuera”, a nivel de pantalla. Es como manejar el auto desde el volante, no desde el motor con herramientas. Por diseño, ese engranaje suma seguridad: si no tiene acceso directo al sistema, tiene menos margen para romperlo de formas profundas, aunque se equivoque en un paso.
Además, UI-TARS-1.5 incorpora otro interruptor mental: razona antes de cada acción que ejecuta. Ese paso de razonamiento reduce errores acumulados cuando la tarea es larga o compleja, un problema típico de los agentes que encadenan muchos clics.
En la práctica, UI-TARS-1.5 puede funcionar como asistente de programación dentro del escritorio. También puede comportarse como un usuario humano para probar aplicaciones, recorriendo menús, botones y formularios como lo haría un tester.
Y hay un uso más doméstico: puede actuar como tutor para guiarte en tareas complejas. No solo “dice” qué hacer, sino que acompaña la ejecución en la propia interfaz. También gestiona tareas de escritorio y operaciones generales de gestión del PC interactuando con lo que ve.
Este movimiento revela un cambio de foco. La nueva gran competición en IA no se centrará solo en modelos conversacionales como Gemini, ChatGPT o Claude, sino en agentes locales (que corren cerca del usuario) capaces de actuar como humanos con garantías de seguridad.
Molbot, UI-TARS y otros como Kimmi K2.5 muestran que la “IA agéntica” no nació ayer. Lleva años gestándose para integrarse en el día a día. La diferencia es que ahora el público la ve, porque por fin empieza a tocar el mouse.
Si la IA va a entrar a tu escritorio, la clave no será solo que sea inteligente: será que tenga límites claros, como una casa bien cableada.

Directora de operaciones en GptZone. IT, especializada en inteligencia artificial. Me apasiona el desarrollo de soluciones tecnológicas y disfruto compartiendo mi conocimiento a través de contenido educativo. Desde GptZone, mi enfoque está en ayudar a empresas y profesionales a integrar la IA en sus procesos de forma accesible y práctica, siempre buscando simplificar lo complejo para que cualquiera pueda aprovechar el potencial de la tecnología.