Cuando una plataforma con millones de conversaciones humanas entra en conflicto con una empresa de IA, sabes que hay algo grande en juego. Aquí te contamos lo esencial del caso, el papel de los proveedores de scraping y por qué los datos valen tanto para entrenar modelos. Lo más delicado está en cómo se habrían obtenido esos datos y qué camino legal se abre a partir de ahora.
Según la denuncia de Reddit, varias compañías habrían eludido protecciones técnicas para capturar publicaciones y comentarios valiosos. Con todo, el caso importa porque marca el tono sobre quién paga por los datos y quién puede entrenar con ellos.
En la demanda, Reddit sostiene que ciertas empresas de scraping de datos operan como “ladrones” que, si no pueden entrar por la puerta principal, buscan otra vía. La comparación es clara: si no alcanzas la bóveda, atacas “el camión blindado” que lleva el dinero. Todo son alegaciones que un juzgado tendrá que revisar con detalle.
En el núcleo de Reddit demanda a Perplexity está la idea de que se habría accedido industrialmente a contenido protegido de Reddit. La empresa afirma que algunos actores evitan controles, copian datos a gran escala y los revenden a clientes necesitados de material para entrenar IA. Estos extremos deberán probarse y contrastarse en sede judicial.
Reddit añade que Perplexity preferiría “comprar” datos extraídos por terceros antes que cerrar un acuerdo directo. Aquí, la demanda recalca la falta de un pacto como el que Reddit sí tiene con otros jugadores del sector.
Un punto clave en Reddit demanda a Perplexity es la mención expresa de tres proveedores: SerpApi, Oxylabs UAB y AWMProxy. Reddit los describe como ejemplos flagrantes de prácticas ilegales. Según la demanda, estas compañías ocultarían su identidad, disfrazarían su localización y variarían sus herramientas para sortear barreras.
También te puede interesar:Reddit apuesta por la inteligencia artificial para seducir a los usuarios de GoogleLa acusación también apunta a que la extracción pasaría en parte por buscadores como Google. Estamos ante la versión de Reddit, y habrá que ver qué responden los señalados si comparecen en el proceso.
La narrativa incluye un episodio concreto. Reddit envió en mayo de 2024 una carta de cese y desistimiento a Perplexity. Le pedía dejar de extraer contenido y respetar las reglas de acceso, algo que en teoría incluye el archivo robots.txt y otras limitaciones técnicas.
Perplexity respondió que no usaba contenido de Reddit para entrenar sus modelos y que respetaría el robots.txt. Reddit asegura que, tras esa comunicación, aumentaron las citas a Reddit dentro del “motor de respuestas” de Perplexity, lo que tensó aún más el escenario.
Para reforzar sus alegaciones en Reddit demanda a Perplexity, la plataforma dice que creó una publicación visible únicamente para Google. En cuestión de horas, Perplexity habría reproducido ese contenido. ¿Cómo habría accedido entonces? Reddit sostiene que la única vía posible fue capturarlo desde las SERP de Google y meterlo de forma rápida en su sistema de respuestas.
Esta es la versión de una parte. Habrá oportunidad de analizar registros técnicos, tiempos de indexación y trazas de acceso cuando el caso avance, si llega a fase probatoria.
Otro eje de Reddit demanda a Perplexity es el valor de los datos. Las conversaciones en Reddit están elaboradas y calificadas por humanos, y eso es oro puro para entrenar modelos que respondan con naturalidad. Vas a poder entender por qué tantas empresas buscan ese material: mejora calidad, reduce ruido y acelera el aprendizaje de las IA.
También te puede interesar:Reddit refuerza su lucha contra los bots de IA con una verificación de usuarios más estrictaYa en 2023, Reddit cambió su API, lo que provocó protestas de usuarios. Una de las razones, según la propia compañía, era cobrar por el acceso a sus datos. Con todo, Reddit ha cerrado acuerdos con empresas como OpenAI y Google, y actualmente intenta alcanzar convenios mejores, más claros y con un precio alineado al valor del contenido.
En la otra cara de Reddit demanda a Perplexity, la compañía de IA se defiende. Su representante, Jesse Dwyer, afirma que aún no han recibido la demanda y que defenderán con firmeza el derecho de los usuarios a acceder libremente al conocimiento público. El mensaje subraya un enfoque basado en principios y una negativa a tolerar amenazas contra la apertura y el interés general.
Queda por ver cómo encaja esta defensa con los límites de derechos de autor, la etiqueta técnica del robots.txt y los acuerdos comerciales que Reddit promueve para el uso de su corpus.
El responsable legal de Reddit, Ben Lee, introduce dos ideas contundentes que atraviesan Reddit demanda a Perplexity: una “carrera armamentística” por conseguir contenido humano y una economía de “blanqueo de datos” a escala industrial. Según Lee, algunos scrapers eluden protecciones, roban datos y los venden a clientes que necesitan material de entrenamiento.
Reddit se ve como objetivo prioritario porque concentra una de las colecciones más grandes y dinámicas de conversaciones reales. Distinguir entre acceso legítimo, indexación pública y extracción prohibida no es trivial, y ahí es donde este caso puede sentar un precedente.
Para entender mejor Reddit demanda a Perplexity, conviene mirar atrás. Reddit ya inició acciones legales contra Anthropic, alegando que sus bots accedieron a la plataforma más de 100.000 veces después de asegurar que dejarían de hacerlo. Con todo, cada caso tiene matices técnicos, periodos distintos y mecanismos de acceso diferentes.
También te puede interesar:Elon Musk Cambia las Reglas: X Reforma Sus Políticas Ante el Auge de la IAEse precedente apunta a una estrategia repetida: proteger el contenido, exigir compensación por los datos y frenar lo que Reddit describe como prácticas de scraping que burla barreras.
Actor | Papel según la demanda | Respuesta o situación pública |
---|---|---|
Demandante y propietario del contenido con derechos | Busca frenar scraping, cobrar por datos y ampliar acuerdos con IA | |
Perplexity | Señalada por usar datos de Reddit vía terceros y SERP | Asegura no entrenar con Reddit, respetar robots.txt y defender acceso libre |
SerpApi | Proveedor de scraping identificado en la demanda | Sin respuesta pública recogida en los hechos aportados |
Oxylabs UAB | Proveedor de scraping identificado en la demanda | Sin respuesta pública recogida en los hechos aportados |
AWMProxy | Proveedor de scraping identificado en la demanda | Sin respuesta pública recogida en los hechos aportados |
Anthropic | Antecedente de acción legal por accesos repetidos | Se alega que siguió accediendo tras prometer que pararía |
Google (SERP) | Fuente indirecta por donde se habría capturado contenido | Implicación técnica en la vía de acceso, no como demandado |
Si sigues Reddit demanda a Perplexity, te interesan las consecuencias. Pueden llegar acuerdos de licencia, cambios de producto o límites de acceso más estrictos. También cabe un refuerzo de medidas técnicas en Reddit, con más validaciones, más barreras y más auditoría de tráfico.
Para empresas y desarrolladores, el mensaje es claro: revisa el uso de datos, respeta el robots.txt y negocia licencias cuando toque. Queda debate sobre qué es “público”, qué entra en uso justo y qué necesita permiso expreso.
Perplexity afirma que no usa contenido de Reddit para entrenar. Reddit alega usos distintos, como incorporar respuestas basadas en SERP. Esto deberá probarse con registros técnicos.
Porque, según su versión, si no pueden entrar a la plataforma, buscan vías indirectas como resultados de búsqueda. La imagen del “camión blindado” resume esa estrategia alternativa.
Son la vía “oficial” que Reddit promueve para compensar el coste del acceso a su corpus. Aquí la disputa es qué se puede usar libremente y qué exige licencia.
La disputa que resume Reddit demanda a Perplexity mezcla técnica, derechos de autor y negocio. Vas a poder seguir el caso para entender si hubo scraping de datos más allá de lo permitido, cómo encaja el robots.txt en estos usos y qué acuerdos de licencia se imponen. Con todo, el pulso por el contenido humano de calidad seguirá, y la “carrera armamentística” por datos marcará el camino de la IA generativa en los próximos meses.
Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.