OpenAI acaba de firmar un acuerdo plurianual con Cerebras para asegurarse nada menos que 750 megavatios de capacidad de cómputo hasta 2028. Esto ya no va únicamente de entrenar modelos cada vez más grandes. El objetivo real es responder en tiempo real sin que la experiencia se sienta pesada, lenta o fragmentada para el usuario.
Según una fuente citada por Reuters, el acuerdo superaría los 10.000 millones de dólares. Y aunque “750 MW” no diga mucho a primera vista, hablamos de capacidad energética e industrial a escala de centros de datos, dedicada casi por completo a una sola prioridad: que la IA responda más rápido y a mucha más gente al mismo tiempo.
OpenAI ha presentado este movimiento como una mejora directa para sus clientes, enfocada en acelerar respuestas que hoy requieren un alto nivel de procesamiento. El foco no está en el entrenamiento, sino en la inferencia.

Es decir, en ese momento crítico en el que escribes un prompt y el modelo genera la respuesta, token a token, con una latencia que se nota más de lo que nos gusta admitir. Si la IA va a convertirse en una capa transversal —búsqueda, ofimática, atención al cliente, agentes autónomos— no puede permitirse colas, esperas ni microcortes constantes.
La escala lo complica todo. Cuantos más usuarios simultáneos, mayores son los picos de demanda, y más se tensan los sistemas. A esto se suma que el listón de expectativas ha subido de forma brutal desde el lanzamiento de ChatGPT en 2022.
Hoy ya no basta con que la IA “responda bien”. Tiene que responder ya, sostener conversaciones más largas, más naturales y con una sensación de inmediatez que se acerca cada vez más a la interacción humana.
También te puede interesar:OpenAI Lanza el Modo Visión en Tiempo Real y Compartir Pantalla en EuropaCerebras lleva más de una década operando, pero su notoriedad se disparó con el auge de la IA generativa. A diferencia del enfoque clásico basado en GPU —sí, Nvidia—, la compañía apuesta por sistemas construidos alrededor de chips diseñados específicamente para cargas de IA.
Se trata de hardware concebido desde cero para este tipo de trabajo, con la promesa de mayor rendimiento y menor latencia en escenarios concretos. Ahora bien, decir “más rápido que las GPU” es una afirmación peligrosa si no se contextualiza.

No significa que Cerebras vaya a destronar a Nvidia de la noche a la mañana, sino que está afinando su arquitectura para un tramo muy específico del problema: inferencia dedicada, a gran escala y con baja latencia. Ahí es donde el usuario final percibe la diferencia, en la fluidez del chat, en lo rápido que se completa una tarea y en si un asistente parece vivo o se siente como un formulario lento.
Andrew Feldman, cofundador y CEO de Cerebras, comparó este salto con la llegada de la banda ancha a internet. Cuando baja la latencia y sube el caudal, aparecen usos que antes ni siquiera se planteaban.
Este acuerdo también revela una estrategia más amplia por parte de OpenAI: diversificar su músculo de cómputo. Sachin Katti, responsable en OpenAI, explicó que el objetivo es construir una cartera resiliente que asigne el sistema adecuado a cada tipo de carga.
No todo requiere el mismo hardware, ni el mismo perfil de costes, ni la misma arquitectura de interconexión. El mensaje, además, tiene una lectura clara entre líneas: evitar cuellos de botella y reducir la dependencia de un único proveedor.
También te puede interesar:OpenAI une fuerzas con los Laboratorios Nacionales de EEUU para transformar la investigación científicaEn el mundo de la IA, el suministro manda. Quien controla el cómputo controla el producto, los precios y el ritmo de despliegue. Y hay una realidad incómoda que nadie esquiva: la inferencia a gran escala se ha convertido en un auténtico agujero negro de recursos.
Cada salto en calidad —modelos más capaces, contextos más largos, multimodalidad— suele venir acompañado de una factura creciente en compute.
El acuerdo cubre desde este año hasta 2028, con esos 750 MW como techo de capacidad comprometida. La señal es clara: OpenAI no está comprando un sprint, está pagando una maratón.
También es una forma de asegurarse prioridad en un mercado donde la demanda de cómputo siempre va por delante de la oferta. El mensaje implícito es sencillo: escalar la IA en tiempo real para muchos más usuarios, con respuestas más rápidas, interacciones más naturales y una base técnica más sólida para crecer. Traducido al día a día: menos “pensando…” y más sensación de conversación instantánea.
Cerebras presentó documentación para salir a bolsa en 2024, pero ha ido aplazando su OPV en varias ocasiones. Mientras tanto, ha seguido levantando financiación y se ha informado de conversaciones para captar hasta 1.000 millones de dólares, con una valoración cercana a los 22.000 millones.

Cerrar un contrato de más de 10.000 millones con OpenAI no es solo una cuestión de ingresos; es una validación de mercado con mayúsculas. A esto se suma un detalle relevante: Sam Altman es inversor en Cerebras, y OpenAI llegó incluso a considerar la compra de la compañía.
Hay relación previa, visión compartida y, probablemente, una negociación mucho más estratégica de lo que parece desde fuera. Si la IA va a ser ubicua, el cómputo no puede depender de la suerte.
La gran incógnita es si este despliegue moverá de forma tangible la aguja para el usuario final o si solo se notará en horas punta. Habrá que ver métricas y casos concretos, pero el titular de fondo es otro: la guerra ya no es solo quién tiene el mejor modelo, sino quién es capaz de servirlo más rápido y a escala.
Y esto apunta a algo claro: la IA en tiempo real deja de ser un lujo para convertirse en el estándar.
Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.