Un análisis realizado recientemente por el periodista de datos Ben Welsh reveló una tendencia sorprendente en el mundo de los sitios web de noticias en línea. De las 1,167 publicaciones en inglés, principalmente de Estados Unidos, estudiadas, poco más de un cuarto se encontró bloqueando Applebot-Extended. Esto significa que una parte significativa de los sitios web de noticias está trabajando activamente para evitar que este bot en particular rastree sus sitios.
El proyecto de Welsh que monitorea cómo los medios abordan a los principales agentes de AI ha revelado una interesante división entre los editores de noticias con respecto a si bloquear o no estos bots. Algunos sitios web han optado por bloquear los rastreadores web de Inteligencia Artificial, mientras que otros les han permitido el acceso. La razón detrás de estas decisiones varía, con algunas organizaciones de noticias haciendo acuerdos de licencia donde son compensadas a cambio de permitir la entrada de los bots.
La gestión de una lista de bloqueo para los bots de rastreo web de AI presenta varios desafíos para los propietarios de sitios web. El archivo robots.txt debe ser editado manualmente para bloquear los bots no deseados, y con el constante debut de nuevos agentes de AI, puede ser difícil mantener la lista actualizada. Como resultado, muchos sitios web luchan por identificar qué bots bloquear y terminan permitiendo el acceso a los rastreadores de AI inadvertidamente.
En general, la batalla contra los rastreadores web de AI continúa evolucionando, con los editores de noticias y los ejecutivos de medios tomando decisiones activamente sobre qué bots permitir y cuáles bloquear. A medida que el panorama tecnológico cambia rápidamente, es esencial que los propietarios de sitios web se mantengan informados y adapten sus estrategias para proteger su contenido del raspado no autorizado.
Deja una respuesta