Según el proveedor de infraestructura de Internet CloudFlare, los tocones de Startups de IA están raspando contenido de sitios web que indican explícitamente que no quieren ser eliminados.
El lunes, Cloudflare publicó una encuesta que encontró que las nuevas empresas de IA ignoraban los bloques y observaban sus actividades crudas o de raspado. El gigante de la infraestructura de la red los acusó de oscurecer su identidad al tratar de raspar las páginas web «para evitar las preferencias del sitio web», escribieron los investigadores de Cloudflare.
Los productos de IA como la oferta de Prplexity se basan en engullir grandes cantidades de datos de Internet, y las nuevas empresas de IA han raspado repetidamente texto, imágenes y videos de Internet sin permiso para que el producto funcione. Recientemente, el sitio web ha intentado luchar utilizando el archivo Web Standard Robots.txt. Trata de decirle a los motores de búsqueda y a las compañías de IA si pueden indexar sus esfuerzos de que han visto una amplia gama de resultados.
Según CloudFlare, parece que están dispuestos a evitar estos bloques cambiando el «agente de usuario» del bot.
«Esta actividad se observó a través de decenas de miles de dominios y millones de solicitudes por día. Pudimos hacer huellas digitales a este rastreador utilizando una combinación de aprendizaje automático y señales de red», decía la publicación de Cloudflare.
El portavoz de Perplexity Jesse Dwyer desestimó la publicación del blog de Cloudflare como «argumento de venta» y agregó un correo electrónico a TechCrunch que dijo que «indica que no se accedió al contenido». En un correo electrónico de seguimiento, Dwyer insistió en el blog de Cloudflare un bot llamado «Not Us».
Cloudflare dijo que la acción se notó por primera vez después de que los clientes se quejaron de que estaban desconcertados y crudos y frotaron el sitio en apuros, especialmente para bloquear los bots conocidos en prplexidad. Cloudflare luego realizó pruebas para verificar y confirmó que la confusión estaba evitando estos bloques.
Eventos de TechCrunch
San Francisco
|
27-29 de octubre de 2025
«La perplejidad observó que utiliza no solo agentes de usuarios declarados, sino también un navegador común que se hace pasar por Google Chrome en macOS cuando los rastreadores declarados están bloqueados», dijo Cloudflare.
La compañía también dijo que ha creado bots de perplejidad a partir de su lista verificada y ha agregado nuevas técnicas para bloquearlos.
Cloudflare ha adoptado recientemente una postura pública contra los rastreadores de IA. El mes pasado, Cloudflare anunció el lanzamiento de un mercado que permitirá a los propietarios y editores de sitios web reclamar a los raspadores de IA visitar sus sitios. El CEO de Cloudflare, Matthew Prince, sonó la alarma en ese momento, diciendo que AI estaba rompiendo Internet, particularmente el modelo de negocio del editor. El año pasado, Cloudflare lanzó una herramienta gratuita para evitar que los bots sacudieran los sitios web para entrenar la IA.
Esta no es la primera vez que la confusión ha sido acusada de frotar sin permiso.
El año pasado, los medios de comunicación como Wired afirman que la confusión estaba plagio de su contenido. Unas semanas más tarde, el CEO de Perplexity, Aravind Srinivas, no pudo responder de inmediato cuando se le pidió que proporcionara una definición de plagio en una entrevista con Devin Colhewey de TechCrunch en la Conferencia Disrupt 2024.
Source link
