NVIDIA acaba de meterse en un lío serio: una demanda colectiva en el Distrito Norte de California la acusa de entrenar modelos de IA con libros pirateados, y el nombre que más aparece como “prueba bomba” es Anna’s Archive.
Cuando una empresa que vende el hardware que mueve buena parte de la industria de la IA es señalada por “alimentar” sus modelos con bibliotecas sombra, el debate deja de ser únicamente legal. La discusión gira en torno a cómo se ha construido realmente esta ola de LLM y qué prácticas se han normalizado en el proceso.
Los demandantes —un grupo de autores— sostienen que NVIDIA copió y utilizó obras con copyright para el entrenamiento de sus modelos, integrándolas en pipelines y datasets a una escala que, de confirmarse, no sería un simple descuido, sino una decisión estratégica.
Según el escrito legal, en 2023 NVIDIA estaba bajo una fuerte presión competitiva para lanzar un LLM “grande” antes de una fecha interna clave, relacionada con su evento de desarrolladores. En este sector, llegar tarde no implica solo perder una keynote: significa ceder narrativa, alianzas estratégicas y, en algunos casos, contratos relevantes.

La demanda plantea que, para cumplir objetivos de escala medidos en tokens, la compañía se habría vuelto altamente dependiente de información contenida en libros. No se trataría de unos cuantos PDFs dispersos, sino de utilizar libros como combustible para mejorar calidad, coherencia y cobertura temática, justo donde los modelos suelen fallar cuando dependen únicamente de la web abierta.
Si el plan era apoyarse en libros, el camino lógico habría sido licenciar catálogos editoriales. De hecho, los demandantes aseguran que NVIDIA intentó negociar con editoriales para acceder rápidamente a grandes volúmenes de obras, pero no habría cerrado acuerdos a tiempo para cumplir con sus plazos internos. Licenciar lleva meses, entrenar un modelo grande también, y el calendario corporativo no suele perdonar retrasos.
También te puede interesar:G-Assist de Nvidia: Ahora con Plugins para Spotify, Twitch y GeminiLa demanda afirma que NVIDIA utilizó material procedente de bibliotecas ocultas como The Pile, Bibliotik/Books3 y, especialmente, Anna’s Archive, una megabiblioteca descrita con 62 millones de libros y 96 millones de artículos.
Su tamaño estimado sería de 1,1 petabytes (unos 1.100 TB), volumen suficiente para entusiasmar a cualquier equipo de datos y, al mismo tiempo, encender todas las alarmas legales. Un detalle particularmente llamativo es que el texto asegura que Anna’s Archive habría indicado que NVIDIA los contactó directamente para obtener acceso a su contenido.

Aquí surge el punto más delicado: la demanda encuadra esta vía como una especie de “piratería de pago”, es decir, pagar por un acceso acelerado a contenido que el propio repositorio reconoce como ilegal. Según el escrito, Anna’s Archive habría advertido sobre la ilegalidad de su colección y solicitado confirmación de compra; aun así, una semana después NVIDIA habría recibido luz verde para acceder a millones de libros.
Esto sugiere que no se trataría de un scraping accidental, sino de un acceso organizado y optimizado para volumen. Se menciona incluso una promesa de acceso a “muchos libros”, cuantificados en alrededor de 500 TB de datos, lo que claramente apunta a una operación industrial, no a una prueba aislada.
El propio relato deja un vacío importante: no queda claro si NVIDIA llegó a pagar efectivamente por ese acceso. A esto se suma un contexto temporal relevante: Anna’s Archive sufrió la suspensión de su dominio en enero de 2026, lo que complica el rastreo, la preservación y la discusión de la evidencia asociada a su infraestructura.
La demanda también sostiene que NVIDIA habría tenido acceso a otras bibliotecas sombra como LibGen, Sci-Hub y Z-Library. De confirmarse, ya no se hablaría de una única fuente polémica, sino de un patrón de comportamiento.
También te puede interesar:Estados Unidos Bloquea la Venta de chips de IA a Emiratos Árabes por Temor a Filtraciones a ChinaAdemás, se afirma que NVIDIA habría facilitado a clientes corporativos herramientas o scripts necesarios para descargar datasets. El matiz es clave: no solo “yo lo uso”, sino “te doy el kit para que tú también lo uses”, lo que eleva significativamente el nivel de riesgo legal.
Conviene, no obstante, mantener la perspectiva. Una acusación no equivale a una sentencia, y en estos casos el detalle técnico —qué se descargó, cómo se usó, si se transformó y si es trazable— resulta determinante.
Este caso encaja perfectamente en una tendencia más amplia. Meta fue acusada de usar BitTorrent para descargar libros pirateados con el fin de entrenar Llama, y también se ha señalado a OpenAI, Microsoft, Anthropic, Google y Apple por recurrir a noticias, estudios o libros protegidos por derechos de autor sin adquirir licencias.
El frente visual tampoco se queda atrás: modelos como Stability AI, Midjourney y servicios vinculados a comunidades como DeviantArt han enfrentado demandas por entrenar con obras de artistas sin permiso.

La industria avanzó rápido porque había materia prima fácil de obtener: internet. Dicho sin rodeos, gran parte del progreso reciente de la IA se apoya en haber usado —o directamente “robado”, según el enfoque— información disponible online.
Cuando se revisan precedentes, el mensaje para quienes esperan un punto de inflexión histórico resulta más bien tibio. En el caso de Meta, desde 2025 no se conocen avances relevantes más allá de la denegación de una moción de los demandantes.
Respecto a OpenAI y Microsoft, se sugiere que podría haber actualizaciones entre enero y febrero del año en curso. El ejemplo más extremo es Anthropic, que llegó a plantearse un acuerdo de 1.500 millones de dólares por el uso de libros pirateados, pero dicho acuerdo no fue aprobado por un juez federal y quedó en suspenso.

Incluso cuando se habla de cifras que “harían historia”, los casos suelen acabar en un limbo procesal. El dato más desalentador es claro: hasta ahora ninguna gran compañía ha pagado una multa efectiva y confirmada por usar libros u otro material pirateado para entrenar IA.
Si el mercado percibe que “no pasa nada”, la tentación de seguir estirando la cuerda permanece. Con NVIDIA en el centro, el ruido es mayor, porque no se trata solo de una empresa de modelos, sino del proveedor de la pala con la que todos están cavando este nuevo mundo.
Queda por ver si esta demanda se suma a la lista de titulares potentes sin consecuencias reales o si, por fin, obliga a la industria a pagar, licenciar o replantear seriamente sus pipelines de datos. En cualquier caso, esto parece solo el inicio de una pelea que definirá cómo se entrenará la IA durante la próxima década.
Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.