Cuando Cloudflare cortó en secreto su sitio web el lunes, acusando a los motores de búsqueda de IA del desconcierto, ignorando ciertas formas de bloquearlo, este no era un caso claro de que AI Web Crawler se volviera salvaje.
Muchas personas vinieron a defender su confusión. Argumentaron que la confusión de visitar el sitio ignorando los deseos del propietario del sitio web es controvertida, pero aceptable. Y esta es una controversia que ciertamente crece a medida que los agentes de IA inundan Internet. ¿Deben los agentes que accedan al sitio web en nombre de los usuarios ser tratados como bots? ¿O justo como si los humanos estuvieran haciendo las mismas solicitudes?
Cloudflare es conocido por proporcionar un rastreo contra el botón y otros servicios de seguridad web a millones de sitios web. Esencialmente, los casos de prueba de CloudFlare incluyen la configuración de un nuevo sitio web con un nuevo dominio que no crece en el bot, y el uso de una configuración de archivo robots.txt. Y la confusión respondió a la pregunta.
Los investigadores de Cloudflare han descubierto que los motores de búsqueda de IA usan «un navegador común destinado a hacerse pasar por Google Chrome en MacOS». «Es probable que una compañía de IA ‘venerada’ actúe como un hacker norcoreano», dijo Matthew Prince, CEO de Cloudflare. «Es hora de estar avergonzado, avergonzado, de bloquear con fuerza», escribió.
Sin embargo, muchas personas se opusieron a la evaluación de Prince de que este era un verdadero comportamiento. Los defensores de la perplejidad de sitios como X y Hacker News señalaron que lo que Cloudflare parece haber documentado es que los usuarios visitarán un sitio web público específico cuando pregunten sobre ese sitio web en particular.
«Si solicita un sitio web como humano, debe ver el contenido», escribió un periódico de hacker, «¿por qué puedo acceder al sitio web para mí?
Un portavoz de Perplexity negó previamente a TechCrunch que el bot pertenecía a la compañía, llamada Public de blog de Cloudflare y el argumento de venta de Cloudflare. Luego, el martes, Perplexity publicó un blog sobre defensa (y generalmente ataca a Cloudflare), alegando que su comportamiento era de un servicio de terceros que ocasionalmente usa.
Eventos de TechCrunch
San Francisco
|
27-29 de octubre de 2025
Pero el corazón de la publicación de Perplexity aportó un llamamiento similar a los defensores en línea.
«La diferencia entre el rastreo automático y la recuperación impulsada por el usuario es más que solo técnica. Ese es quién tiene acceso a información en la web abierta», dice la publicación. «Esta controversia revela que los sistemas de Cloudflare son esencialmente insuficientes para distinguir entre asistentes de IA legítimos y amenazas reales».
Las acusaciones de Peplexity tampoco son con precisión. Un argumento que Prince y Cloudflare solían llamar el método de perplejidad fue que Operai no se comporta de la misma manera.
«OpenAi es un ejemplo de una compañía líder de IA que sigue estas mejores prácticas. Respetan robots.txt y no intentan evitar los robots.
Web Bot Auth es un estándar compatible con CloudFlare, desarrollado por el Grupo de Tarea de Ingeniería de Internet, que quiere crear métodos de cifrado para identificar solicitudes web de agentes de IA.
La discusión se debe a que la actividad de BOT está remodelando Internet. Como TechCrunch informó anteriormente, los bots que intentan frotar mucho contenido para entrenar modelos de IA se han convertido en una amenaza, especialmente para sitios pequeños.
Por primera vez en la historia de Internet, la actividad de BOT ahora supera la actividad humana en línea, con el tráfico de IA que representa más del 50%, según un informe de BAD BOT publicado el mes pasado. La mayor parte de esa actividad proviene de LLM. Sin embargo, el informe también encontró que los bots maliciosos ahora representan el 37% de todo el tráfico de Internet. Esto incluye actividades que incluyen todo, desde raspado permanente hasta intentos de inicio de sesión no autorizados.
Hasta LLMS, Internet generalmente ha admitido que los sitios web pueden bloquear la mayoría de las actividades de BOT, dado que era malicioso al usar CAPTCHAS y otros servicios (como CloudFlare). El sitio web también tenía incentivos claros para trabajar con ciertos buenos actores como Googlebot para guiarlo sobre cosas que no están indexadas a través de robots.txt. Google indexó Internet y envió tráfico al sitio.
Actualmente, LLM está aumentando su volumen de tráfico. Gartner predice que el volumen del motor de búsqueda disminuirá en un 25% para 2026. Actualmente, los humanos tienden a hacer clic en los enlaces del sitio web desde LLM en el punto más valioso para un sitio web.
Pero si los humanos emplean a los agentes como la industria tecnológica predice: organizar viajes, reservar reservas para la cena, comprarnos, ¿dañará el sitio web las ganancias comerciales al bloquearlos? La discusión X capturó el dilema por completo:
«¡Al proporcionar solicitudes/tareas, quiero confundirme sobre visitar contenido público en su nombre!» Escribí una persona en respuesta a la confusión de Cloudflare.
«¿Qué pasa si el propietario del sitio no quiere eso? Quieren que visite la casa en persona y vea la suya», dijo.
«Es por eso que no puede ver que el ‘agente navegando’ realmente funcione. Es un problema mucho más difícil de lo que la gente piensa. La mayoría de los propietarios de sitios web simplemente bloquean», predijo el tercero.
Source link
