Reddit Demanda a Perplexity por Uso No Autorizado de Contenidos para Entrenar su IA

RESUMIR ARTÍCULO CON CHATGPT RESUMIR ARTÍCULO CON PERPLEXITY

Cuando una plataforma con millones de conversaciones humanas entra en conflicto con una empresa de IA, sabes que hay algo grande en juego. Aquí te contamos lo esencial del caso, el papel de los proveedores de scraping y por qué los datos valen tanto para entrenar modelos. Lo más delicado está en cómo se habrían obtenido esos datos y qué camino legal se abre a partir de ahora.

Reddit demanda a Perplexity: lo que se sabe hasta el momento

Según la denuncia de Reddit, varias compañías habrían eludido protecciones técnicas para capturar publicaciones y comentarios valiosos. Con todo, el caso importa porque marca el tono sobre quién paga por los datos y quién puede entrenar con ellos.

En la demanda, Reddit sostiene que ciertas empresas de scraping de datos operan como “ladrones” que, si no pueden entrar por la puerta principal, buscan otra vía. La comparación es clara: si no alcanzas la bóveda, atacas “el camión blindado” que lleva el dinero. Todo son alegaciones que un juzgado tendrá que revisar con detalle.

Acusaciones clave en la demanda: scraping masivo y contenido protegido

En el núcleo de Reddit demanda a Perplexity está la idea de que se habría accedido industrialmente a contenido protegido de Reddit. La empresa afirma que algunos actores evitan controles, copian datos a gran escala y los revenden a clientes necesitados de material para entrenar IA. Estos extremos deberán probarse y contrastarse en sede judicial.

Reddit añade que Perplexity preferiría “comprar” datos extraídos por terceros antes que cerrar un acuerdo directo. Aquí, la demanda recalca la falta de un pacto como el que Reddit sí tiene con otros jugadores del sector.

Empresas señaladas: SerpApi, Oxylabs UAB y AWMProxy

Un punto clave en Reddit demanda a Perplexity es la mención expresa de tres proveedores: SerpApi, Oxylabs UAB y AWMProxy. Reddit los describe como ejemplos flagrantes de prácticas ilegales. Según la demanda, estas compañías ocultarían su identidad, disfrazarían su localización y variarían sus herramientas para sortear barreras.

También te puede interesar:El CEO de Reddit Asegura que los Chatbots de IA no Aportan Tráfico a la Plataforma

La acusación también apunta a que la extracción pasaría en parte por buscadores como Google. Estamos ante la versión de Reddit, y habrá que ver qué responden los señalados si comparecen en el proceso.

Según Reddit, Perplexity habría obtenido contenido de la plataforma

La narrativa incluye un episodio concreto. Reddit envió en mayo de 2024 una carta de cese y desistimiento a Perplexity. Le pedía dejar de extraer contenido y respetar las reglas de acceso, algo que en teoría incluye el archivo robots.txt y otras limitaciones técnicas.

Perplexity respondió que no usaba contenido de Reddit para entrenar sus modelos y que respetaría el robots.txt. Reddit asegura que, tras esa comunicación, aumentaron las citas a Reddit dentro del “motor de respuestas” de Perplexity, lo que tensó aún más el escenario.

El experimento de la página rastreable solo por Google

Para reforzar sus alegaciones en Reddit demanda a Perplexity, la plataforma dice que creó una publicación visible únicamente para Google. En cuestión de horas, Perplexity habría reproducido ese contenido. ¿Cómo habría accedido entonces? Reddit sostiene que la única vía posible fue capturarlo desde las SERP de Google y meterlo de forma rápida en su sistema de respuestas.

Esta es la versión de una parte. Habrá oportunidad de analizar registros técnicos, tiempos de indexación y trazas de acceso cuando el caso avance, si llega a fase probatoria.

Por qué los datos de Reddit valen tanto para entrenar IA generativa

Otro eje de Reddit demanda a Perplexity es el valor de los datos. Las conversaciones en Reddit están elaboradas y calificadas por humanos, y eso es oro puro para entrenar modelos que respondan con naturalidad. Vas a poder entender por qué tantas empresas buscan ese material: mejora calidad, reduce ruido y acelera el aprendizaje de las IA.

También te puede interesar:Post Viral en Reddit Muestra Que una Presunta Estafa en App de Comida fue Generada Por IA

Ya en 2023, Reddit cambió su API, lo que provocó protestas de usuarios. Una de las razones, según la propia compañía, era cobrar por el acceso a sus datos. Con todo, Reddit ha cerrado acuerdos con empresas como OpenAI y Google, y actualmente intenta alcanzar convenios mejores, más claros y con un precio alineado al valor del contenido.

La posición de Perplexity: acceso libre y justo al conocimiento público

En la otra cara de Reddit demanda a Perplexity, la compañía de IA se defiende. Su representante, Jesse Dwyer, afirma que aún no han recibido la demanda y que defenderán con firmeza el derecho de los usuarios a acceder libremente al conocimiento público. El mensaje subraya un enfoque basado en principios y una negativa a tolerar amenazas contra la apertura y el interés general.

Queda por ver cómo encaja esta defensa con los límites de derechos de autor, la etiqueta técnica del robots.txt y los acuerdos comerciales que Reddit promueve para el uso de su corpus.

Contexto amplio: la “carrera armamentística” por datos humanos de calidad

El responsable legal de Reddit, Ben Lee, introduce dos ideas contundentes que atraviesan Reddit demanda a Perplexity: una “carrera armamentística” por conseguir contenido humano y una economía de “blanqueo de datos” a escala industrial. Según Lee, algunos scrapers eluden protecciones, roban datos y los venden a clientes que necesitan material de entrenamiento.

Reddit se ve como objetivo prioritario porque concentra una de las colecciones más grandes y dinámicas de conversaciones reales. Distinguir entre acceso legítimo, indexación pública y extracción prohibida no es trivial, y ahí es donde este caso puede sentar un precedente.

Antecedentes legales: acciones previas de Reddit contra Anthropic

Para entender mejor Reddit demanda a Perplexity, conviene mirar atrás. Reddit ya inició acciones legales contra Anthropic, alegando que sus bots accedieron a la plataforma más de 100.000 veces después de asegurar que dejarían de hacerlo. Con todo, cada caso tiene matices técnicos, periodos distintos y mecanismos de acceso diferentes.

Anthropic, Creadora de Claude, Desembolsa 1.500 millones tras Ser acusada de Piratería Masiva con su IA

Ese precedente apunta a una estrategia repetida: proteger el contenido, exigir compensación por los datos y frenar lo que Reddit describe como prácticas de scraping que burla barreras.

Actores principales del caso y sus posiciones públicas

Actor	Papel según la demanda	Respuesta o situación pública
Reddit	Demandante y propietario del contenido con derechos	Busca frenar scraping, cobrar por datos y ampliar acuerdos con IA
Perplexity	Señalada por usar datos de Reddit vía terceros y SERP	Asegura no entrenar con Reddit, respetar robots.txt y defender acceso libre
SerpApi	Proveedor de scraping identificado en la demanda	Sin respuesta pública recogida en los hechos aportados
Oxylabs UAB	Proveedor de scraping identificado en la demanda	Sin respuesta pública recogida en los hechos aportados
AWMProxy	Proveedor de scraping identificado en la demanda	Sin respuesta pública recogida en los hechos aportados
Anthropic	Antecedente de acción legal por accesos repetidos	Se alega que siguió accediendo tras prometer que pararía
Google (SERP)	Fuente indirecta por donde se habría capturado contenido	Implicación técnica en la vía de acceso, no como demandado

Cómo te afecta esta disputa: escenarios posibles y puntos de atención

Si sigues Reddit demanda a Perplexity, te interesan las consecuencias. Pueden llegar acuerdos de licencia, cambios de producto o límites de acceso más estrictos. También cabe un refuerzo de medidas técnicas en Reddit, con más validaciones, más barreras y más auditoría de tráfico.

Para empresas y desarrolladores, el mensaje es claro: revisa el uso de datos, respeta el robots.txt y negocia licencias cuando toque. Queda debate sobre qué es “público”, qué entra en uso justo y qué necesita permiso expreso.

Cronología orientativa del caso que dispara Reddit demanda a Perplexity

Recibe y lee la carta: sitúa mayo de 2024 como momento de cese y desistimiento.
Compara señales: observa el aumento de citas a Reddit reportado por la compañía tras esa carta.
Valida el experimento: revisa el episodio de la publicación rastreable solo por Google y su rápida aparición en respuestas.
Identifica proveedores: toma nota de SerpApi, Oxylabs UAB y AWMProxy como señalados en la demanda.
Contextualiza el valor: entiende por qué Reddit busca acuerdos como los cerrados con OpenAI y Google.

Preguntas clave sobre Reddit demanda a Perplexity y el acceso a datos

¿Perplexity entrenó sus modelos con contenido de Reddit?

Perplexity afirma que no usa contenido de Reddit para entrenar. Reddit alega usos distintos, como incorporar respuestas basadas en SERP. Esto deberá probarse con registros técnicos.

¿Por qué Reddit compara a los scrapers con “ladrones de bancos”?

Porque, según su versión, si no pueden entrar a la plataforma, buscan vías indirectas como resultados de búsqueda. La imagen del “camión blindado” resume esa estrategia alternativa.

¿Qué papel juegan los acuerdos de datos con empresas de IA?

Son la vía “oficial” que Reddit promueve para compensar el coste del acceso a su corpus. Aquí la disputa es qué se puede usar libremente y qué exige licencia.

La disputa que resume Reddit demanda a Perplexity mezcla técnica, derechos de autor y negocio. Vas a poder seguir el caso para entender si hubo scraping de datos más allá de lo permitido, cómo encaja el robots.txt en estos usos y qué acuerdos de licencia se imponen. Con todo, el pulso por el contenido humano de calidad seguirá, y la “carrera armamentística” por datos marcará el camino de la IA generativa en los próximos meses.

Aitor Wilzig

Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.

gptzone.net