Hoy en día los vídeos manipulados con inteligencia artificial, conocidos como deepfakes, han alcanzado tal nivel de perfección que ya no es posible confiar solo en la detección facial para descubrirlos. Ahora, la IA permite crear vídeos completos, desde rostros hasta paisajes y fondos digitales, complicando mucho la tarea de distinguir entre lo real y lo falso.
Para responder a estos desafíos, investigadores de Estados Unidos han desarrollado UNITE (Universal Network for Identifying Tampered and SynthEtic videos). Este modelo de IA va mucho más allá que los sistemas clásicos y puede descubrir falsificaciones, aunque no aparezca ni un solo rostro.
La clave está en que no depende tan solo del análisis facial. UNITE examina toda la superficie del vídeo, analizando el movimiento y la naturalidad de los objetos y fondos. Así, identifica deepfakes aunque la manipulación esté en paisajes, fondos generados o elementos secundarios, y no solo en los protagonistas humanos.
Antes, los sistemas de detección se basaban en buscar distorsiones en los rostros. Ya no es suficiente. Los deepfakes modernos son capaces de generar vídeos enteros, en los que tanto las caras como los fondos o el escenario han sido renderizados por IA. En estos casos, solo UNITE consigue mantener una precisión alta y una sensibilidad especial para detectar alteraciones en cualquier área.
Aparte de no necesitar ver caras, el modelo está entrenado para captar incoherencias en la suavidad del movimiento o en el aspecto de los objetos. El sistema se fija tanto en detalles imperceptibles del fondo como en las animaciones de personas o elementos en movimiento. De esta manera, vas a poder identificar manipulaciones, aunque sean sutiles, incluso donde los expertos o modelos de IA fallan.
UNITE ha sido probado con vídeos sintéticos de alta complejidad. Es capaz de descubrir escenas tocadas por IA en paisajes, personajes por ordenador o vídeos donde solo se ha modificado el fondo. Esta universalidad lo posiciona como una de las soluciones más potentes para desenmascarar contenido fraudulento.
También te puede interesar:Google Gemini entra al juego: ahora también edita imágenes con IA al estilo ChatGPTPuedes preguntarte en qué se basa UNITE para ser tan efectivo. La respuesta está en dos pilares principales: SigLIP, el modelo de lenguaje visual de Google, y la arquitectura transformer, una estructura que también da vida a ChatGPT y otras IA generativas.
SigLIP analiza la conexión entre imágenes, vídeos y lenguaje natural. En lugar de atarse a un objeto concreto, aprende a extraer características abstractas de todo el contenido visual. Esto da una capa extra de versatilidad a la hora de detectar falsificaciones en cualquier parte del vídeo.
Por otro lado, la arquitectura transformer permite a UNITE procesar la información teniendo siempre en cuenta el contexto global. Evalúan todo el clip a la vez, detectando incoherencias en la fluidez del movimiento y en la apariencia de objetos o fondos, por pequeños que sean. Así, puedes confiar en que pocas manipulaciones se le escapan.
¿De qué forma UNITE consigue no caer en la trampa de mirar solo lo más obvio? Aquí entra en juego una técnica avanzada llamada attention-diversity loss. En pocas palabras, este método vigila cómo el modelo distribuye su atención visual y si el foco se concentra demasiado, obliga al sistema a abrir el ángulo y considerar todo lo que pasa en pantalla.
Mediante esta estrategia, el mapa de atención se dispersa, el modelo aprende a estar pendiente del fondo, objetos y pequeños detalles y puedes detectar alteraciones que de otra forma pasan desapercibidas. La atención no se centra solo en lo que destaca, sino en áreas periféricas que antes se dejaban de lado.
Imagina que vez un vídeo y solo miras el centro todo el rato; podrías no darte cuenta si hay algo raro en una esquina. UNITE fuerza la “mirada” de la IA a recorrer toda la escena, lo que incrementa la capacidad para encontrar pistas de manipulación digital fuera de las zonas más visibles.
También te puede interesar:Project Super Sonic de Adobe: La IA que genera efectos de sonido para tus videosPara que UNITE sea capaz de detectar cualquier tipo de deepfake, los investigadores lo entrenaron con varios conjuntos de datos diversos, como FaceForensics++, SAIL-VOS y AVID. Estos archivos reúnen desde manipulaciones faciales muy realistas, hasta cambios completos de fondo o vídeos generados por IA de principio a fin. Así, el modelo se acostumbra a detectar falsificaciones sea cual sea la parte afectada del vídeo.
La universalidad de UNITE se basa en esa variedad de datos: rostro, fondo, generación sintética completa… Nada escapa a su campo de visión. Gracias a este entrenamiento masivo, puedes aplicar UNITE a casi cualquier ámbito donde la fiabilidad del vídeo es esencial.
Al probarse con el conjunto DeMamba (que incluye vídeos generados con Sora, donde los métodos clásicos fracasan), UNITE logró más del 87% de precisión. Es decir, detectó correctamente la mayoría de vídeos falsos, incluso los que los seguidores de IA consideran indetectables por sistemas faciales tradicionales.
El equipo desarrollador ve enorme potencial para la detección automática de vídeos fraudulentos en redes sociales, plataformas como YouTube o TikTok, las pruebas periciales en juicios y la verificación de noticias digitales. Ante la oleada de desinformación y pruebas alteradas que se cuelan a diario en internet, contar con una tecnología así marca una gran diferencia.
Si te inquieta que una generación de contenidos por IA acabe por distorsionar la realidad, herramientas como UNITE pueden ser la pieza que hace falta para restaurar algo de confianza en los vídeos que circulan y que tú mismo ves a diario.
Una pregunta interesante es hasta qué punto la propia IA puede engañarse y vigilarse a la vez. UNITE comparte fundamentos tecnológicos con herramientas como ChatGPT, Midjourney o Sora. En la práctica, la IA que genera deepfakes y la que los detecta comparten bases de aprendizaje profundo y arquitectura de transformers.
De ese modo hay conexión entre los sistemas que crean y los que descubren la manipulación. Gracias a mejoras como las que incorpora UNITE, la inteligencia artificial no solo complica el problema, sino que también ofrece la solución: la lucha contra los vídeos falsos es cada vez más un pulso entre IAs.
Con todo, la aparición de modelos como UNITE supone un cambio importante en la confianza que se puede depositar en la evidencia en vídeo. Ahora que cualquier elemento puede falsificarse mediante IA, es fundamental contar con estrategias universales y adaptadas al ritmo actual de las tecnologías.
UNITE no solo te ayuda a detectar vídeos falsificados de manera precisa, sino que también abre la puerta a nuevas formas de verificar la información audiovisual en un entorno digital donde la autenticidad ya no puede darse por supuesta.
En definitiva, UNITE ha demostrado que la lucha contra los vídeos falsos creados con IA requiere herramientas tan sofisticadas como los propios sistemas de manipulación. Con una precisión superior al 87% frente a deepfakes avanzados como los de Sora y una filosofía basada en la detección universal, este modelo marca un nuevo estándar.
Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.