¿Te imaginas poder transcribir casi nueve horas de grabaciones de voz en el tiempo que tardas en prepararte un café? Hasta hace muy poco, esto requería alquilar servidores masivos en la nube y gastar una pequeña fortuna. Hoy, Cohere acaba de reventar el tablero con su nuevo lanzamiento. La compañía ha presentado oficialmente Transcribe, su primer modelo de voz de código abierto diseñado específicamente para el reconocimiento automático del habla. Y te adelanto que los datos iniciales son una auténtica brutalidad.
En concreto, estamos ante un modelo de apenas 2.000 millones de parámetros. Quizás esta cifra te parezca demasiado técnica, pero su traducción al mundo real es fascinante para los desarrolladores. Significa que el modelo es lo bastante ligero como para ejecutarse de forma local en una tarjeta gráfica de consumo. Es decir, puedes instalarlo en el ordenador de tu casa o en los servidores privados de tu empresa sin depender de la nube de terceros. Adiós a los problemas de privacidad al transcribir reuniones de directivos. Así de fácil.
Si miramos los números en frío, el rendimiento del modelo ni se inmuta ante la competencia. Transcribe ha conseguido coronarse por todo lo alto en la clasificación Open ASR de Hugging Face. Su tasa media de error de palabras (el famoso WER que usan los ingenieros) se ha quedado en un minúsculo 5,42, la más baja de todo el benchmark. Básicamente, se equivoca mucho menos que tú tomando apuntes rápidos. Con esta precisión, ha logrado destronar a pesos pesados como IBM Granite 4.0 1B o el mismísimo Scribe v2 de ElevenLabs.
Transcribe pulveriza los tiempos de procesamiento con 525 minutos de audio por minuto
Evidentemente, el sector empresarial no solo busca precisión pura, exige una velocidad extrema. Y aquí es donde el modelo open-source de Cohere saca pecho de verdad frente al resto. Según las métricas oficiales publicadas por la compañía, Transcribe puede procesar 525 minutos de audio por minuto. Piensa en ello un segundo. Puedes meterle el audio de un congreso entero y te devuelve el texto perfectamente formateado antes de que te des cuenta. Una absoluta salvajada.
También te puede interesar:Cohere Compra Ottogrid para Potenciar la Investigación de Mercado con IA
Pero claro, la letra pequeña siempre existe, y no iba a ser menos en este escenario tecnológico. Aunque el modelo admite actualmente 14 idiomas (incluyendo inglés, chino, árabe o japonés), su talón de Aquiles nos toca muy de cerca. En las evaluaciones humanas, donde logra un impresionante 61% de tasa de victoria global en coherencia y usabilidad, Transcribe pincha un poco con el español. También presenta un rendimiento inferior frente a algunos competidores cuando tiene que lidiar con el portugués y el alemán. Tocará tener paciencia y esperar a futuras actualizaciones para ver si afinan nuestro idioma.
Como era de esperar, este lanzamiento responde a una demanda del mercado que simplemente no para de crecer. Las aplicaciones de toma de notas automáticas y los asistentes de reuniones están viviendo una auténtica edad dorada. Todos queremos un clon digital que escuche la reunión de las nueve de la mañana y nos pase un texto limpio con las tareas clave. Al ofrecer una tecnología tan rápida, Cohere se asegura de ser el motor invisible que impulse a decenas de estas nuevas start-ups.

El ecosistema gratuito de Cohere allana su camino hacia una futura salida a bolsa
Por si fuera poco, la start-up no ha querido esconder su nueva herramienta detrás de un muro de pago inaccesible. Han sido muy listos con la distribución. El modelo ya se puede probar a coste cero a través de la API de Cohere. Quieren que los programadores jueguen con él, que lo estresen al máximo y que lo integren en sus pipelines de trabajo diario sin fricciones.
A ello se le suma su clara y ambiciosa vocación corporativa. La empresa ya ha confirmado que planean integrar Transcribe directamente en North (plataforma), su conocido entorno de orquestación de agentes empresariales. Y si los grandes clientes prefieren un entorno gestionado de máxima seguridad, también lo tendrán disponible dentro de Model Vault (plataforma de inferencia gestionada de Cohere). Te lo ponen todo en bandeja.
Y es que este movimiento no es un simple capricho de los ingenieros. Hay muchísimo dinero en juego y una estrategia financiera brillante empujando todo esto. Como bien dijo recientemente el CEO Aidan Gomez a sus inversores, la empresa ha alcanzado unos ingresos recurrentes de 240 millones de dólares para este 2025. Son cifras mareantes que pavimentan el camino hacia una más que probable salida a bolsa. (Como curiosidad, si tienes información privilegiada sobre estos movimientos financieros, periodistas del sector como Ivan Mehta siempre están receptivos en **@*******ta.com).
Queda claro que la batalla por dominar la inteligencia artificial ya no va solo de generar textos desde cero o crear imágenes virales. La transcripción de audio rápida, privada y barata es el nuevo oro digital para las corporaciones. Veremos si gigantes como OpenAI o Google mueven ficha rápido o si dejan que Cohere se quede con el trozo más jugoso del pastel corporativo. La partida acaba de empezar.

Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.









