En un movimiento que refleja la creciente preocupación por la protección de datos en la era de la inteligencia artificial (IA), Baidu ha actualizado su servicio Baidu Baike, similar a Wikipedia, para impedir que Google y Bing extraigan su contenido. Este cambio en su archivo robots.txt pone de manifiesto la importancia cada vez mayor de los datasets en el entrenamiento de modelos de IA.
El 8 de agosto, según la Wayback Machine, se detectó una modificación significativa en el archivo robots.txt de Baidu Baike, donde se deniega el acceso a los crawlers de Googlebot y Bingbot. Antes de este cambio, ambos motores de búsqueda tenían permiso para indexar el repositorio central de Baidu Baike, que alberga casi 30 millones de entradas. Sin embargo, ya se habían restringido ciertos subdominios específicos del sitio web.
La decisión de Baidu de bloquear a Google y Bing no es un caso aislado. En un contexto donde la demanda de datasets grandes y curados está en auge para el entrenamiento de modelos de inteligencia artificial, varias empresas están adoptando medidas similares para proteger su contenido. Reddit, por ejemplo, bloqueó a varios motores de búsqueda en julio, excepto a Google, para evitar que sus publicaciones y discusiones fueran indexadas. Este tipo de contenido es invaluable para los desarrolladores de IA generativa, que buscan datos de la más alta calidad para mejorar sus modelos.
Google mantiene un acuerdo financiero con Reddit para acceder a los datos necesarios para entrenar sus servicios de IA. De forma similar, Microsoft ha considerado restringir el acceso a sus datos de búsqueda de Internet para operadores de motores de búsqueda rivales, especialmente aquellos que los utilizan para desarrollar chatbots y servicios de IA generativa.
Mientras tanto, la Wikipedia China, con sus 1,43 millones de entradas, sigue estando disponible para que los motores de búsqueda la rastreen. No obstante, un estudio del South China Morning Post ha encontrado que algunas entradas de Baidu Baike todavía aparecen en las búsquedas de Bing y Google, probablemente debido al uso de contenido almacenado en caché.
La protección del contenido en línea es fundamental para los desarrolladores de IA, que están cada vez más dispuestos a colaborar con los editores de contenido para acceder a datasets de alta calidad. Por ejemplo, OpenAI firmó un acuerdo con la revista Time para obtener acceso a todo su archivo, que data de hace más de un siglo. Un acuerdo similar se firmó con el Financial Times en abril de este año.
También te puede interesar:¿Qué es ChatGPT?Empresa | Acción Tomada | Comentarios Adicionales |
---|---|---|
Baidu | Bloqueo a Google y Bing | Actualización del archivo robots.txt el 8 de agosto |
Bloqueo a motores de búsqueda | Excepción para Google debido a un acuerdo financiero | |
OpenAI | Acuerdo con Time y Financial Times | Acceso a archivos históricos para entrenar modelos de IA |
Este tipo de decisiones reflejan la importancia creciente de los datos en la era de la inteligencia artificial. Las empresas están invirtiendo grandes sumas en el desarrollo de IA, lo que incrementa considerablemente el valor de los datasets grandes y curados. Como resultado, las plataformas en línea están reconsiderando cómo gestionan el acceso a su contenido, optando por limitar o monetizar el acceso a sus datos.
El reciente movimiento de Baidu para restringir el acceso a su contenido para motores de búsqueda como Google y Bing subraya la importancia crítica de los datos en el desarrollo de la inteligencia artificial. A medida que la industria de la IA continúa evolucionando, es probable que veamos más cambios en las políticas de compartición de datos, lo que podría redefinir cómo se indexa y accede a la información en Internet.
Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.