Inicio Modelos IA Microsoft Presenta sus Propios Modelos MAI de Voz, Imagen y Transcripción en...

Modelos IA

Microsoft Presenta sus Propios Modelos MAI de Voz, Imagen y Transcripción en Foundry

Por

06/04/2026

447

Durante meses, Microsoft ha tenido sus mejores juguetes bajo llave en una vitrina de cristal. Solo podíamos saborearlos si pasábamos por caja con Copilot o usábamos sus productos prefabricados. Pero esa estrategia exclusiva parece haber llegado a su fin. Hoy, los de Redmond han dado un golpe sobre la mesa liberando tres de sus modelos más potentes para que cualquier desarrollador pueda meterles mano. Microsoft abre su ecosistema MAI y lo lanza directamente a las trincheras. Un movimiento empresarial brutal.

Y es que la jugada tiene todo el sentido del mundo si miramos el mercado actual. En lugar de obligarte a pasar por el aro de sus interfaces finales, ahora te entregan las piezas del motor para que construyas tus propias aplicaciones. Tal y como han desvelado en su portal oficial, el arsenal se compone de tres bestias: MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2. Transcripción avanzada, generación de voz sintética e imágenes de altísima calidad. Así de simple.

El fin del monopolio de Copilot: tarifas y acceso real en Foundry

Si nos vamos a los números, la estrategia de precios es agresiva pero muy segmentada. Para empezar, tienes la transcripción por 0,36 dólares la hora de audio procesado. Si lo que buscas es generar voz, la broma te sale a 22 dólares por cada millón de caracteres. Y para la generación visual, te cobrarán 5 dólares por millón de tokens de entrada, sumando 33 dólares por los de salida.

Básicamente, no te están regalando nada, pero los precios son lo suficientemente competitivos como para que alguien pueda montar una start-up basada en esto mañana mismo. Aunque el entorno de pruebas, el famoso MAI Playground, sigue capado y limitado solo a usuarios de Estados Unidos, el acceso bruto para empresas a través de Foundry ya es una realidad. Se acabaron las demos de humo en YouTube. Ahora toca picar código de verdad.

También te puede interesar:¿Pagar Más con Menos Empleados? Microsoft Plantea Cobrar Licencias para Agentes de IA que Uses

MAI-Transcribe-1 le roba la corona al modelo Whisper de OpenAI

Aquí es donde la parte técnica se pone verdaderamente interesante. Resulta que MAI-Transcribe-1 no es un modelo del montón. Según los benchmarks internos filtrados, acaba de reventar la durísima prueba FLEURS en los 25 idiomas más hablados del mundo. Y eso son palabras mayores en este sector.

De hecho, se ha merendado a pesos pesados de la industria. Ha logrado superar al archiconocido Whisper-large-v3, a Scribe v2 e incluso al reciente Gemini 3.1 Flash de Google. Lo mejor es que lo ha hecho peleando en el barro, optimizado específicamente para entender audio sucio. Soporta de forma nativa formatos como WAV, MP3 o FLAC, aislando el ruido de fondo de una grabación hecha con el móvil. Ni se inmuta.

We’re bringing our growing MAI model family to every developer in Foundry, including …

· MAI-Transcribe-1, most accurate transcription model in world across 25 languages
· MAI-Voice-1, natural, expressive speech generation
· MAI-Image-2, our most capable image model yet

Start… pic.twitter.com/p0DZZcAUZ4
— Satya Nadella (@satyanadella) April 2, 2026

Pero claro, siempre hay una letra pequeña en estos lanzamientos. Microsoft promete el oro y el moro para crear subtítulos automáticos o analizar llamadas de ventas, pero ahora mismo le faltan funciones básicas críticas. Todavía no tiene transcripción en tiempo real ni diarización, que es la capacidad de saber quién diablos está hablando en cada momento. Dicen que llegará en futuras versiones. Tocará tener paciencia.

También te puede interesar:¿Pagar Más con Menos Empleados? Microsoft Plantea Cobrar Licencias para Agentes de IA que Uses

También te puede interesar:Microsoft Desarrolla un Agente Tipo OpenClaw para Copilot 365

MAI-Voice-1: 60 segundos de audio generados en un solo segundo

Por otro lado, nos encontramos con el motor de generación de audio. El rendimiento bruto de MAI-Voice-1 es una auténtica locura técnica. Es capaz de escupir un minuto entero de voz en apenas un segundo de procesamiento real. Una latencia ridícula que cambia por completo las reglas del juego para los asistentes virtuales.

A ello se le suma una de las características más demandadas, y también polémicas, de la inteligencia artificial: clonar voces con solo unos pocos segundos de muestra de audio. Lo metes en Foundry, le das el contexto, y ya tienes un agente virtual hablando con tu mismo tono. Todo esto forma parte de la estrategia Voice Live de la compañía, diseñada para que los agentes conversacionales te respondan al instante sin ese molesto lag telefónico que arruina la experiencia de usuario.

Imágenes comerciales sin limitaciones absurdas gracias a MAI-Image-2

Finalmente, el apartado visual no se queda atrás, aunque tiene un enfoque diametralmente opuesto al de Midjourney. MAI-Image-2 no busca que hagas memes divertidos para redes sociales. Está pensado directamente para fotógrafos, agencias de publicidad y narradores visuales. Quieren que lo uses para vender y hacer dinero.

Si miramos las especificaciones bajo el capó, el salto respecto a la primera generación es inmenso. Hablamos de soporte nativo para exportar imágenes en formato PNG, un contexto gigantesco de hasta 32K y una resolución que supera holgadamente el millón de píxeles. Todo con una mejora abismal en el fotorrealismo, el tratamiento de los tonos de piel y, sobre todo, un renderizado de texto legible dentro de la imagen. Una absoluta maravilla para los diseñadores gráficos.

Como era de esperar, Microsoft ya lo está metiendo con calzador en sus propios productos, desplegándolo progresivamente en Bing y PowerPoint. Pero el verdadero pastel está en los acuerdos B2B corporativos. Gigantes mundiales de la publicidad como WPP ya han sido confirmados como los primeros en adoptar este motor para sus inmensas campañas. No dan puntada sin hilo.

El panorama que nos deja la firma liderada por Satya Nadella es fascinante. Han decidido dejar de vender solo la carrocería brillante y empezar a vender el motor directamente a los mecánicos de todo el mundo. La guerra de la inteligencia artificial ya no trata sobre quién tiene el chat más simpático, sino sobre quién ofrece la API más robusta a las empresas. La pelota está ahora en el tejado de OpenAI y Google. Veremos si logran mantener el ritmo.

Aitor Wilzig

Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.

gptzone.net

0 0 votos

Valoración del artículo

0 Comentarios

Más Antiguos

Más Nuevos Más Votados

Microsoft Presenta sus Propios Modelos MAI de Voz, Imagen y Transcripción en Foundry

El fin del monopolio de Copilot: tarifas y acceso real en Foundry

MAI-Transcribe-1 le roba la corona al modelo Whisper de OpenAI

MAI-Voice-1: 60 segundos de audio generados en un solo segundo

Imágenes comerciales sin limitaciones absurdas gracias a MAI-Image-2

OTRAS NOTICIAS

Tilly Norwood, la actriz hecha con IA que desató la polémica en Hollywood prepara...

Universidad de Cambridge ha Visto caer su Superordenador de IA por Culpa de una...

España Declara la Guerra al Uso de Datos Infantiles por la IA, con un...

El Plan de Google para Acelerar su IA Deja a Medios Digitales Ante una...

TE INTERESA

DeepSeek Desarrolla Chip de IA para Inferencia y Desafía a NVIDIA

Incluso más noticias

Meta Presenta Muse Image para Crear Imágenes con IA en WhatsApp...

XAI Estrena 21 Nuevas Voces Grok para Agentes de Voz y...

Claude Cowork Llega a iPhone, Android y Web con Automatización de...

CATEGORÍA POPULAR

DOMINA LA IA EN 3 MINUTOS AL DÍA (GRATIS)

Suscríbete a nuestra Newsletter Diaria sobre IA:

You have Successfully Subscribed!

Atomic Bot Ejecuta un Modelo de IA Basado en OpenClaw, de...

Microsoft Cancela Claude Code Tras Dispararse el Coste por su Uso...

Anthropic Estrena Claude Mythos Tras Filtraciones, su IA que Detecta Vulnerabilidades...