Ahora, Alibaba acaba de mover una pieza clave en ese tablero. La compañía lanzó los “Modelos Pequeños Qwen 3.5”, una familia de cuatro modelos de IA abiertos y muy livianos, pensados para funcionar en local, en tu propio dispositivo, sin depender del chatbot de turno.
El hallazgo no está solo en el nombre: los Qwen 3.5 “small” vienen en tamaños de 0,8B, 2B, 4B y 9B parámetros. Para dimensionarlo: se estima que modelos como GPT 5.3, Opus 4.6 o Gemini 3.1 rondan o superan los 500.000 millones de parámetros. Es otra liga, y también otra factura energética.

El divulgador de IA Paul Couvert destaca que, según benchmarks compartidos, Qwen3.5-4B logra una potencia comparable a Qwen3-Next-80B-A3B-Thinking, pese a ser mucho más pequeño. En un ecosistema donde “más grande” suele ser sinónimo de “mejor”, ese dato funciona como interruptor mental.
¿Cómo logra Alibaba ese mecanismo? La empresa habla de una “Arquitectura Híbrida Eficiente”, que combina Gated Delta Networks (un tipo nuevo de atención) con Mixture-of-Experts o MoE (especialistas que se turnan). En vez de encender toda la maquinaria para cada pregunta, el sistema activa solo el engranaje necesario y esquiva el “muro de memoria” (límite de velocidad por acceso a datos).
Y además, hay una oportunidad práctica: los modelos de 0,8B y 2B están orientados a prototipado y a dispositivos modestos donde la autonomía de batería manda. El bajo consumo permite ejecutar IA sin que el teléfono o la notebook se conviertan en una plancha.
El Qwen3.5-4B es multimodal (acepta texto e imágenes) y apunta a agentes ligeros, esos asistentes que no solo contestan, sino que ayudan a completar tareas. Su ventana de contexto llega a 262.144 tokens, un espacio enorme para “recordar” instrucciones, notas o documentos dentro de una misma sesión.

En su versión cuantizada a 4 bits (comprimida para pesar menos), Qwen3.5-4B ocupa menos de 3 GB. Esa cifra es la diferencia entre “esto es para un servidor” y “esto entra en un móvil”. También se mostraron demos donde estos modelos pueden integrarse en un navegador.
El Qwen3.5-9B, el más grande de la familia pequeña, está orientado al razonamiento. Según Alibaba, supera al modelo abierto gpt-oss-120B de OpenAI pese a ser 13,5 veces más pequeño. En benchmarks, la compañía afirma que en GPQA (prueba de preguntas complejas) Qwen3.5-9B supera a gpt-oss-120B, y en MMMU-Pro (razonamiento visual) llega a pasar a Gemini 2.5 Flash lite.
El punto más sensible aparece cuando la IA deja de ser un servicio remoto y pasa a ser un software que corre “en casa”. Si el modelo se ejecuta en local, las conversaciones no pasan por servidores externos. Y eso cambia la ecuación de privacidad: lo que preguntas, lo que pegas y lo que corriges puede quedarse en tu propio equipo, incluso sin conexión a Internet.
En Occidente hay intentos: Google empuja Gemma 3 270M; Microsoft tiene Phi-4; OpenAI lanzó gpt-oss-20B y gpt-oss-120B. Pero, en este momento, Alibaba parece el actor más agresivo y avanzado en la apuesta por modelos pequeños con rendimiento serio.

Directora de operaciones en GptZone. IT, especializada en inteligencia artificial. Me apasiona el desarrollo de soluciones tecnológicas y disfruto compartiendo mi conocimiento a través de contenido educativo. Desde GptZone, mi enfoque está en ayudar a empresas y profesionales a integrar la IA en sus procesos de forma accesible y práctica, siempre buscando simplificar lo complejo para que cualquiera pueda aprovechar el potencial de la tecnología.