InfiniMind, la start-up fundada por dos ex Googlers en Tokio, acaba de cerrar una ronda de 5,8 millones de dólares para atacar un problema que casi nadie quiere mirar de frente: todo el vídeo que las empresas acumulan… y nunca analizan. Entre archivos históricos de emisión, miles de cámaras en tiendas y metraje de producción, estamos generando más vídeo que nunca, pero una parte enorme de ese material se queda muerto en servidores como “dark data”, sin aportar valor real al negocio.
Detrás del proyecto están el CEO Aza Kai y el COO Hiraku Yanagita, ambos ex Google y con casi una década trabajando juntos en Google Japón, quienes han construido una infraestructura capaz de convertir petabytes de vídeo y audio no visionados en datos estructurados, consultables y accionables. Y no, esto no va de poner etiquetas a fotogramas sueltos y llamarlo inteligencia artificial: la ambición es bastante mayor.
Muchas organizaciones llevan años capturando vídeo de forma automática por una razón sencilla: grabar es barato, pero entender es carísimo. Kai describe un escenario que se repite constantemente: clientes con décadas de archivos de televisión o repositorios internos tan gigantes que ni siquiera saben con certeza qué contienen. Cuando no puedes responder preguntas básicas sobre tu propio contenido, tienes un activo que, en la práctica, se comporta como un pasivo.

El problema del “dark data” audiovisual no es solo una cuestión de orden o archivística. También es, de forma directa, un problema de negocio. Si no puedes medir presencia de marca, exposición de producto, incidentes de seguridad o tendencias de consumo, básicamente estás tomando decisiones a ciegas.
Hasta hace poco, además, el mercado ofrecía un trade-off poco atractivo: o lograbas precisión en tareas muy concretas, o los costes se disparaban en cuanto intentabas escalar el análisis.
Según Kai, el gran cambio llega con los modelos visión-lenguaje entre 2021 y 2023, cuando el análisis de vídeo empieza a ir mucho más allá del simple object tagging. El salto es claro: pasas de “hay una botella en este frame” a algo realmente útil, como seguir una narrativa, entender causalidad y responder preguntas complejas sobre lo que ocurre a lo largo del tiempo.
Ahí está la trampa del vídeo: lo importante casi nunca está en un fotograma aislado, sino en la secuencia completa y en su contexto. A esto se suma, por supuesto, la mejora del hardware. Durante la última década, las GPU han ofrecido incrementos anuales de rendimiento del 15% al 20% y una reducción de costes que hace viable procesar cada vez más metraje. Aun así, Kai lo dice sin rodeos: lo decisivo no fue solo abaratar la inferencia, sino que los modelos por fin “sabían” hacer el trabajo que se les pedía.
InfiniMind ha levantado una ronda semilla de 5,8 millones de dólares, liderada por UTEC, con la participación de CX2, Headline Asia, Chiba Dojo y un investigador de IA vinculado a a16z Scout. El plan es ambicioso: trasladar la sede a Estados Unidos sin abandonar Japón, manteniendo allí una oficina operativa.

La estrategia tiene lógica. Japón ha funcionado como banco de pruebas gracias a su hardware sólido, talento de ingeniería y un ecosistema start-up sorprendentemente pragmático, ideal para afinar producto con clientes exigentes. Sin embargo, el mercado grande para infraestructura de análisis de vídeo empresarial —tanto por volumen como por presupuesto— rara vez se concentra en una sola geografía.
Este capital se destinará a seguir desarrollando DeepFrame, ampliar la infraestructura de ingeniería, contratar más talento y acelerar la captación de clientes en Japón y Estados Unidos.
El primer producto de la compañía se llama TV Pulse y se lanzó en Japón en abril de 2025. No es una demo atractiva para enseñar en presentaciones: es una plataforma operativa que analiza contenido televisivo en tiempo real para medios y retail. El caso de uso es claro y directo: seguimiento de exposición de producto, presencia de marca, sentimiento del cliente e incluso impacto de acciones de PR.
Lo interesante es que InfiniMind no se ha quedado en la fase de “lo probamos con un piloto”. Tras varios programas piloto con grandes cadenas y agencias, ya cuentan con clientes de pago, incluidos mayoristas y empresas de medios, lo que valida que el problema no es teórico, sino urgente y monetizable.
La apuesta internacional se llama DeepFrame, una plataforma de inteligencia pensada para vídeo de larga duración. Aquí el matiz es clave: no hablamos de clips cortos para redes sociales, sino de horas y horas de metraje donde está lo que realmente cuesta dinero no entender. DeepFrame puede procesar hasta 200 horas de vídeo para localizar escenas, oradores o eventos específicos, convirtiendo un océano de archivos en puntos navegables: momentos relevantes, patrones, quién dijo qué y cuándo ocurrió algo importante.
Además, integra comprensión de audio, sonidos y voz, no solo elementos visuales. No se limita a detectar que “hay una persona hablando”, sino que intenta capturar la capa semántica, muchas veces escondida en lo que se dice y en cómo suena el entorno. La beta está prevista para marzo y el lanzamiento completo para abril de 2026. Según Kai, el sistema está diseñado para manejar longitud de vídeo ilimitada, justo el punto donde muchas soluciones fallan por coste, latencia o complejidad operativa.
Un mercado fragmentado donde gana quien controle el coste por insight
El análisis de vídeo es un sector altamente fragmentado, con compañías como TwelveLabs ofreciendo APIs de comprensión de vídeo de propósito general para múltiples casos. InfiniMind, sin embargo, no quiere ser “una API para todo el mundo”. Su foco está en casos empresariales concretos como monitorización, seguridad, protección y análisis orientado a extraer insights profundos.
Aquí entra otra promesa clave para las empresas: no-code. El cliente aporta los datos y el sistema se encarga del procesamiento para entregar información accionable, sin necesidad de montar un equipo interno de machine learning para cada pipeline.
Y es aquí donde Kai introduce la parte más filosófica —y deliberadamente provocadora— del proyecto. Para él, esta área es un camino hacia la AGI: entender vídeo de forma general equivale a comprender la realidad. Hoy, por supuesto, el dinero está en lo industrial y lo corporativo. Queda por ver si la competencia reacciona o si este hueco, por fin, se transforma en una categoría enorme.
Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.