Piensas en la marca verde y automáticamente visualizas tarjetas gráficas gigantes o centros de datos inabarcables. Normal. Pero la guerra de la inteligencia artificial ya no se gana solo soldando chips. NVIDIA presentó en silencio una nueva bestia de software que puede reventar el mercado: el Nemotron 3 Nano Omni. Un modelo abierto que no viene a jugar, sino a comerse a la competencia.
Hasta hace poco, la norma en la industria era hacer un monstruo de Frankenstein. Si querías que una IA viera, le ponías un modelo de visión. Si querías que leyera, otro de texto. ¿El resultado? Latencia por las nubes, pérdida brutal de contexto entre sistemas y facturas de servidor mareantes. Pero eso se acabó.
La propuesta aquí es radicalmente distinta. Han creado unos auténticos ojos y oídos unificados para los agentes de inteligencia artificial. Texto, vídeo, audio, interfaces gráficas y PDFs complejos entran y se procesan en un único flujo de razonamiento. Todo bajo el mismo techo. Y las implicaciones para el sector corporativo son gigantescas.
La magia técnica: 30.000 millones de parámetros con una dieta estricta
Si miramos bajo el capó, los números hablan claro. Estamos ante una arquitectura 30B-A3B. Suena a código secreto, pero es sencillo. El modelo alberga unos 30.000 millones de parámetros en total, pero gracias a la técnica de Mixture of Experts (MoE), solo activa unos 3.000 millones por inferencia. Un truco brillante para no malgastar recursos.
Básicamente, el sistema no enciende todo su cerebro para responder a una petición mundana. Escoge solo a los «expertos» necesarios para cada tarea. Esto hunde el coste de ejecución y reduce la latencia a niveles que hace un año parecían magia negra. Eficiencia en estado puro.
A nivel de esqueleto, NVIDIA ha mezclado lo mejor de cada casa. Utilizan un backbone híbrido Mamba-Transformer-MoE, al que le han inyectado dos esteroides vitales. Por un lado, el codificador visual C-RADIOv4-H para devorar imágenes. Por otro, el sistema Parakeet, especializado en voz y transcripción. El conjunto ni se inmuta ante entradas de datos caóticas.
Un rendimiento que deja en evidencia al open-source tradicional
Como era lógico esperar, NVIDIA no lanza algo para quedarse en mitad de la tabla. Afirman sin pestañear que su modelo ofrece hasta 9 veces más rendimiento que las opciones multimodales abiertas actuales, manteniendo la misma interactividad. Una auténtica barbaridad.
En concreto, los benchmarks son para enmarcar. El modelo consigue 57,5 puntos en MMLongBench-Doc, aplastando los 38,0 de Nano V2 VL y los 49,5 de Qwen3-Omni. Si pasamos al OSWorld, un entorno que simula interacción con ordenadores, la paliza es monumental: 47,4 puntos frente a rivales que a duras penas rozan los 29. No hay color.

Y es que el tratamiento del vídeo esconde sus propios secretos. Han implementado tecnologías como Conv3D y el Efficient Video Sampling. Dicho rápido: el sistema identifica y descarta los fotogramas inútiles o repetidos al instante. No pierde el tiempo procesando píxeles vacíos, logrando mejoras de hasta 9,2x en razonamiento sobre vídeo frente a otras alternativas libres.
Es decir, si gestionas una gran compañía, puedes procesar infinitamente más contenido con tus servidores actuales. Atiendes a más usuarios, quemas menos energía y disparas tus márgenes operativos. Así de simple.
Palantir y la élite corporativa ya hacen cola
Pero cuidado con esto, porque el software no es nada sin adopción real. NVIDIA ha posicionado a Nemotron 3 Nano Omni estrictamente como un subagente de percepción multimodal para desarrolladores. No planifica las tareas finales, sino que «entiende» el entorno para pasárselo masticado a otros sistemas.
Y los gigantes ya han sacado la chequera. Empresas del calibre de Palantir, Foxconn, ASI o Aible ya han integrado este modelo. Que Palantir esté en esta lista es el dato definitivo. Hablamos de una firma que gestiona contratos de defensa, inteligencia y seguridad nacional a nivel mundial. No se andan con tonterías.

El motivo del fichaje es evidente. Necesitan inteligencias capaces de auditar documentos corporativos hiperdensos, leer gráficos cruzados, transcribir audios y vigilar vídeos, todo a la vez y sin alucinaciones. Por si fuera poco, colosos como Dell Technologies, Oracle e Infosys ya lo tienen en fase de evaluación para sus propios flujos de cumplimiento.
Lo más astuto de la estrategia verde no es regalar este modelo abierto, sino la pila completa. Te entregan las recetas de entrenamiento, las herramientas de cuantización y facilidades para desplegarlo en local, en la nube o en el edge. Te meten en su ecosistema por la puerta grande y te quitan las ganas de mirar a otro lado.
La pelota está ahora mismo en el tejado de Meta y los grandes laboratorios asiáticos. Igualar esta optimización extrema de recursos y retener al sector corporativo se ha puesto muy cuesta arriba. Toca sacar las palomitas para ver quién sobrevive a este ritmo de innovación.

Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.








