Durante meses, Microsoft ha tenido sus mejores juguetes bajo llave en una vitrina de cristal. Solo podíamos saborearlos si pasábamos por caja con Copilot o usábamos sus productos prefabricados. Pero esa estrategia exclusiva parece haber llegado a su fin. Hoy, los de Redmond han dado un golpe sobre la mesa liberando tres de sus modelos más potentes para que cualquier desarrollador pueda meterles mano. Microsoft abre su ecosistema MAI y lo lanza directamente a las trincheras. Un movimiento empresarial brutal.
Y es que la jugada tiene todo el sentido del mundo si miramos el mercado actual. En lugar de obligarte a pasar por el aro de sus interfaces finales, ahora te entregan las piezas del motor para que construyas tus propias aplicaciones. Tal y como han desvelado en su portal oficial, el arsenal se compone de tres bestias: MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2. Transcripción avanzada, generación de voz sintética e imágenes de altísima calidad. Así de simple.
El fin del monopolio de Copilot: tarifas y acceso real en Foundry
Si nos vamos a los números, la estrategia de precios es agresiva pero muy segmentada. Para empezar, tienes la transcripción por 0,36 dólares la hora de audio procesado. Si lo que buscas es generar voz, la broma te sale a 22 dólares por cada millón de caracteres. Y para la generación visual, te cobrarán 5 dólares por millón de tokens de entrada, sumando 33 dólares por los de salida.

Básicamente, no te están regalando nada, pero los precios son lo suficientemente competitivos como para que alguien pueda montar una start-up basada en esto mañana mismo. Aunque el entorno de pruebas, el famoso MAI Playground, sigue capado y limitado solo a usuarios de Estados Unidos, el acceso bruto para empresas a través de Foundry ya es una realidad. Se acabaron las demos de humo en YouTube. Ahora toca picar código de verdad.
También te puede interesar:Microsoft ofrece miles de dólares a quienes encuentren vulnerabilidades en su IAMAI-Transcribe-1 le roba la corona al modelo Whisper de OpenAI
Aquí es donde la parte técnica se pone verdaderamente interesante. Resulta que MAI-Transcribe-1 no es un modelo del montón. Según los benchmarks internos filtrados, acaba de reventar la durísima prueba FLEURS en los 25 idiomas más hablados del mundo. Y eso son palabras mayores en este sector.
De hecho, se ha merendado a pesos pesados de la industria. Ha logrado superar al archiconocido Whisper-large-v3, a Scribe v2 e incluso al reciente Gemini 3.1 Flash de Google. Lo mejor es que lo ha hecho peleando en el barro, optimizado específicamente para entender audio sucio. Soporta de forma nativa formatos como WAV, MP3 o FLAC, aislando el ruido de fondo de una grabación hecha con el móvil. Ni se inmuta.
Pero claro, siempre hay una letra pequeña en estos lanzamientos. Microsoft promete el oro y el moro para crear subtítulos automáticos o analizar llamadas de ventas, pero ahora mismo le faltan funciones básicas críticas. Todavía no tiene transcripción en tiempo real ni diarización, que es la capacidad de saber quién diablos está hablando en cada momento. Dicen que llegará en futuras versiones. Tocará tener paciencia.
También te puede interesar:Microsoft ofrece miles de dólares a quienes encuentren vulnerabilidades en su IAMAI-Voice-1: 60 segundos de audio generados en un solo segundo
Por otro lado, nos encontramos con el motor de generación de audio. El rendimiento bruto de MAI-Voice-1 es una auténtica locura técnica. Es capaz de escupir un minuto entero de voz en apenas un segundo de procesamiento real. Una latencia ridícula que cambia por completo las reglas del juego para los asistentes virtuales.
A ello se le suma una de las características más demandadas, y también polémicas, de la inteligencia artificial: clonar voces con solo unos pocos segundos de muestra de audio. Lo metes en Foundry, le das el contexto, y ya tienes un agente virtual hablando con tu mismo tono. Todo esto forma parte de la estrategia Voice Live de la compañía, diseñada para que los agentes conversacionales te respondan al instante sin ese molesto lag telefónico que arruina la experiencia de usuario.

Imágenes comerciales sin limitaciones absurdas gracias a MAI-Image-2
Finalmente, el apartado visual no se queda atrás, aunque tiene un enfoque diametralmente opuesto al de Midjourney. MAI-Image-2 no busca que hagas memes divertidos para redes sociales. Está pensado directamente para fotógrafos, agencias de publicidad y narradores visuales. Quieren que lo uses para vender y hacer dinero.
Si miramos las especificaciones bajo el capó, el salto respecto a la primera generación es inmenso. Hablamos de soporte nativo para exportar imágenes en formato PNG, un contexto gigantesco de hasta 32K y una resolución que supera holgadamente el millón de píxeles. Todo con una mejora abismal en el fotorrealismo, el tratamiento de los tonos de piel y, sobre todo, un renderizado de texto legible dentro de la imagen. Una absoluta maravilla para los diseñadores gráficos.
Como era de esperar, Microsoft ya lo está metiendo con calzador en sus propios productos, desplegándolo progresivamente en Bing y PowerPoint. Pero el verdadero pastel está en los acuerdos B2B corporativos. Gigantes mundiales de la publicidad como WPP ya han sido confirmados como los primeros en adoptar este motor para sus inmensas campañas. No dan puntada sin hilo.
El panorama que nos deja la firma liderada por Satya Nadella es fascinante. Han decidido dejar de vender solo la carrocería brillante y empezar a vender el motor directamente a los mecánicos de todo el mundo. La guerra de la inteligencia artificial ya no trata sobre quién tiene el chat más simpático, sino sobre quién ofrece la API más robusta a las empresas. La pelota está ahora en el tejado de OpenAI y Google. Veremos si logran mantener el ritmo.

Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.











