Hugging FaceSoftBankMasayoshi SonOpenEuroLLMOpenAIAgentes IAo3-miniDeepseekGoogle AI

Baidu Bloquea a Google y Bing: ¿Un Paso Más en la Protección de Datos para la Inteligencia Artificial?

 | agosto 29, 2024
baidu bloquea a google y bing

En un movimiento que refleja la creciente preocupación por la protección de datos en la era de la inteligencia artificial (IA), Baidu ha actualizado su servicio Baidu Baike, similar a Wikipedia, para impedir que Google y Bing extraigan su contenido. Este cambio en su archivo robots.txt pone de manifiesto la importancia cada vez mayor de los datasets en el entrenamiento de modelos de IA.

Cambios en el Acceso a Baidu Baike bloqueando a Googlebot y Bingbot

El 8 de agosto, según la Wayback Machine, se detectó una modificación significativa en el archivo robots.txt de Baidu Baike, donde se deniega el acceso a los crawlers de Googlebot y Bingbot. Antes de este cambio, ambos motores de búsqueda tenían permiso para indexar el repositorio central de Baidu Baike, que alberga casi 30 millones de entradas. Sin embargo, ya se habían restringido ciertos subdominios específicos del sitio web.

La Importancia de los Datasets en la IA

La decisión de Baidu de bloquear a Google y Bing no es un caso aislado. En un contexto donde la demanda de datasets grandes y curados está en auge para el entrenamiento de modelos de inteligencia artificial, varias empresas están adoptando medidas similares para proteger su contenido. Reddit, por ejemplo, bloqueó a varios motores de búsqueda en julio, excepto a Google, para evitar que sus publicaciones y discusiones fueran indexadas. Este tipo de contenido es invaluable para los desarrolladores de IA generativa, que buscan datos de la más alta calidad para mejorar sus modelos.

Acuerdos y Restricciones: Un Panorama en Evolución

Google mantiene un acuerdo financiero con Reddit para acceder a los datos necesarios para entrenar sus servicios de IA. De forma similar, Microsoft ha considerado restringir el acceso a sus datos de búsqueda de Internet para operadores de motores de búsqueda rivales, especialmente aquellos que los utilizan para desarrollar chatbots y servicios de IA generativa.

Mientras tanto, la Wikipedia China, con sus 1,43 millones de entradas, sigue estando disponible para que los motores de búsqueda la rastreen. No obstante, un estudio del South China Morning Post ha encontrado que algunas entradas de Baidu Baike todavía aparecen en las búsquedas de Bing y Google, probablemente debido al uso de contenido almacenado en caché.

La Valoración de Datos de Calidad en la Era de la IA

La protección del contenido en línea es fundamental para los desarrolladores de IA, que están cada vez más dispuestos a colaborar con los editores de contenido para acceder a datasets de alta calidad. Por ejemplo, OpenAI firmó un acuerdo con la revista Time para obtener acceso a todo su archivo, que data de hace más de un siglo. Un acuerdo similar se firmó con el Financial Times en abril de este año.

También te puede interesar:¿Qué es ChatGPT?
EmpresaAcción TomadaComentarios Adicionales
BaiduBloqueo a Google y BingActualización del archivo robots.txt el 8 de agosto
RedditBloqueo a motores de búsquedaExcepción para Google debido a un acuerdo financiero
OpenAIAcuerdo con Time y Financial TimesAcceso a archivos históricos para entrenar modelos de IA

Este tipo de decisiones reflejan la importancia creciente de los datos en la era de la inteligencia artificial. Las empresas están invirtiendo grandes sumas en el desarrollo de IA, lo que incrementa considerablemente el valor de los datasets grandes y curados. Como resultado, las plataformas en línea están reconsiderando cómo gestionan el acceso a su contenido, optando por limitar o monetizar el acceso a sus datos.

El reciente movimiento de Baidu para restringir el acceso a su contenido para motores de búsqueda como Google y Bing subraya la importancia crítica de los datos en el desarrollo de la inteligencia artificial. A medida que la industria de la IA continúa evolucionando, es probable que veamos más cambios en las políticas de compartición de datos, lo que podría redefinir cómo se indexa y accede a la información en Internet.

Copyright © gptzone.net

La Newsletter Diaria Sobre Inteligencia Artificial. Además: Portal de Noticias, Tutoriales, Tips y Trucos de ChatGpt, Openai e Inteligencia Artificial.

Nuestra web está alojada en:

hosting raiola

Suscríbete a nuestra Newsletter Diaria sobre IA

 

Suscríbete a GptZone y recibe cada día TOTALMENTE GRATIS:

 

  • 📰 Noticias Exclusivas de Inteligencia Artificial.
  • 🤖 Prompts Creativos y prácticos.
  • 🎥 Videos Inspiradores sobre IA.
  • 🛠️ Apps Recomendadas para revolucionar tu día a día.

Te has suscrito Satisfactoriamente!

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram