DeepSeek, un laboratorio de origen chino especializado en IA, acaba de actualizar su modelo de razonamiento artificial. Su nueva versión, conocida como R1-0528, demuestra un nivel alto en pruebas de matemáticas y programación, superando a muchos rivales conocidos. Ahora bien, lo curioso del asunto es que algunos expertos y desarrolladores notan similitudes llamativas entre este modelo y el famoso Gemini 2.5 Pro de Google.
¿Por qué te interesa esto? Si trabajas con IA, te preocupa la procedencia de los datos de entrenamiento y buscas entender qué riesgos y retos conlleva el uso de técnicas como la destilación. Aquí vas a poder descubrir qué está provocando tanta polémica en la comunidad de inteligencia artificial y cómo puede afectar el desarrollo de modelos cada vez más avanzados.
En las últimas semanas, tanto usuarios experimentados como analistas técnicos han observado que DeepSeek R1-0528 comparte muchas expresiones y patrones de razonamiento con Gemini 2.5 Pro, el buque insignia de Google en productos de IA.
El desarrollador australiano Sam Paech asegura haber detectado expresiones recurrentes en ambos modelos, lo que sugiere que DeepSeek pudo entrenar con salidas de Gemini.
Por su parte, el creador anónimo de la herramienta SpeechMap ha señalado que los llamados “traces” —los razonamientos internos generados antes de llegar a una decisión o respuesta— de DeepSeek se leen igual que los de Gemini. ¿Te ha pasado alguna vez ver respuestas sospechosamente similares entre diferentes plataformas de IA?
También te puede interesar:Gemini 2.5 Pro Supera Pruebas Complejas en Matemáticas y Conocimiento CientíficoUn detalle que alimenta toda la especulación es que DeepSeek no ha revelado de dónde ha sacado los datos para entrenar R1-0528. Esta opacidad abre la puerta a pensar que han podido usar contenido ya generado por otros modelos comerciales, sobre todo los grandes como Gemini.
La comunidad especializada entiende perfectamente que, si entrenas tu IA con las mejores salidas disponibles, puedes llegar a alcanzar un rendimiento muy superior ahorrando recursos técnicos.
No es la primera vez que DeepSeek se enfrenta a acusaciones de este tipo. El pasado diciembre, varios desarrolladores detectaron que versiones anteriores del modelo —en concreto DeepSeek V3— solían identificarse como ChatGPT, lo cual apunta a que podría haber sido entrenada con diálogos reales sacados de OpenAI.
Incluso algunos registros internos revelaron respuestas con sellos, frases o referencias únicas de ChatGPT.
¿Sabías que entrenar modelos con contenido generado por IA rival se le llama destilación? Consiste en extraer salidas de modelos punteros, luego usarlas como base para que el nuevo modelo imite su rendimiento. El propio OpenAI mencionó en una nota al Financial Times que detectaron la práctica de destilación por parte de DeepSeek a principios de año.
Otra pieza clave en el puzle es la investigación publicada por Bloomberg sobre Microsoft. El gigante tecnológico, que colabora activamente con OpenAI, descubrió que enormes cantidades de información salían de cuentas de desarrolladores asociadas supuestamente a DeepSeek, todo ello en pleno 2024.
También te puede interesar:Google Gemini 2.5 Pro Logra Completar Pokémon Blue Usando Inteligencia Artificial AvanzadaEl objetivo parece claro: recolectar datos para mejorar la calidad de los modelos propios mediante técnicas de destilación, incluso si eso va en contra de los términos de OpenAI, que prohíben expresamente este uso.
Gran parte de los modelos de IA actuales beben de la web abierta, ya plagada de contenido generado automáticamente, como artículos clickbait, bots y publicaciones automatizadas en plataformas como Reddit o X.
Este fenómeno ha creado lo que muchos llaman una “contaminación” en los datos de entrenamiento: cada vez es más difícil separar lo original de lo replicado, y a la larga los modelos empiezan a coincidir en expresiones, respuestas y razonamientos.
En palabras de Nathan Lambert, investigador senior en AI2, es plausible que DeepSeek utilice datos generados por rivales para maximizar rendimiento gastando menos recursos computacionales. Si tienes poco acceso a GPUs pero mucho capital, recurrir a datos sintéticos bien seleccionados parece “rentable”. ¿Tú qué harías?
Las empresas enfrentan muchas dificultades para detectar si una frase fue generada por un humano o por otra IA, sobre todo cuando la cantidad de datos contaminados sigue creciendo por culpa de bots y granjas de contenido. La presión regulatoria y de reputación obliga a intentar filtrar todo lo posible para evitar entrenamientos viciados o poco diversos.
Con tal panorama, ¿qué están haciendo los gigantes como OpenAI o Google para defender su trabajo? La respuesta pasa por endurecer el acceso e incluso dificultar la extracción de datos de entrenamiento.
Estas nuevas barreras buscan poner las cosas más difíciles a quienes quieren “copiar” el cerebro de los modelos estrella simplemente descargando sus razonamientos.
Al final, la línea entre lo original y lo replicado se difumina. Si la mayoría de nuevos modelos usan datos contaminados o directamente generados por rivales, es lógico que las respuestas se parezcan tanto. Con todo, la carrera tecnológica empuja a innovar en seguridad y transparencia, pero también plantea dilemas éticos y prácticos sobre hasta dónde se debe llegar para proteger una ventaja competitiva.
La polémica entre DeepSeek y los modelos de Google ilustra cómo la inteligencia artificial se basa tanto en la fuerza bruta computacional como en el acceso inteligente y seguro a datos de entrenamiento. Los parecidos entre DeepSeek R1-0528 y Gemini 2.5 Pro reflejan no solo tecnicismos, sino también las tensiones actuales en la industria por el uso de datos ajenos.
Si se logra frenar la destilación, es posible que la comunidad viva una nueva fase marcada por mayor transparencia y fiabilidad en la creación de modelos de IA. Por ahora, sigue quedando pendiente un comentario oficial de Google sobre el caso, así que tendremos que esperar nuevas noticias para comprobar si se confirma alguna relación directa o si todo es fruto de la creciente contaminación del entorno digital.
Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.