- Perplexidade vista como ignorando sinais como robot.txt para raspar sites online
- Até encontrou sites de teste protegidos e ocultos da Cloudflare
- Openai adere ao rastreamento responsável, mas perplexidade quieta por enquanto
A Cloudflare acusou a gigante da IA perplexidade de raspar sites que não permitem explicitamente rastejando por meio de robôs.
Pesquisadores da empresa disse Eles observaram a perplexidade usando vários agentes de usuário, incluindo um personagem do Google Chrome no MacOS, além de rotativos de endereços IP e ASNs para evitar a detecção.
Surpreendentemente, o CloudFlare detectou milhões de solicitações diárias em dezenas de milhares de domínios, destacando a grande escala de raspagem ilegítima por uma das maiores empresas do espaço.
Perplexidade está raspando sites que não deve ser
De acordo com a análise do Cloudflare, em muitos casos, a perplexidade ignorou ou não buscou arquivos robôs.txt – que são arquivos de texto simples colocados na raiz de um site para informar aos agentes automatizados (como mecanismos de pesquisa, rastreadores de AI e links de link) que podem ou não podem ser buscados.
De maneira reveladora, a perplexidade também tentou acessar os sites de teste que o CloudFlare criou, apesar de terem sido bloqueados por robôs.
“Embora a perplexidade inicialmente se arraste de seu agente de usuários declarado, quando eles são apresentados com um bloco de rede, eles parecem obscurecer sua identidade rastejante na tentativa de contornar as preferências do site”, escrevem os pesquisadores.
Em resposta às suas descobertas, o Cloudflare reduziu os bots da Perplexity da sua lista de bots verificados. A empresa também adicionou novas heurísticas de regras gerenciadas para detectar e bloquear rastreamento furtivo.
Inscreva -se no boletim do TechRadar Pro para obter todas as principais notícias, opinião, recursos e orientações que sua empresa precisa para ter sucesso!
Por outro lado, os rastreadores do OpenAI até agora respeitam robôs.TXT e bloqueiam páginas, usando identificadores transparentes e comportamento documentado para obter informações.
A perplexidade negou a irregularidade, chamando o post de Cloudflare de “arremesso de vendas”, acrescentando que os bots identificados não eram nem deles. TechRadar Pro pediu perplexidade por seu comentário.
O Cloudflare pede aos operadores de bot que respeitem as preferências do site por serem transparentes, sendo internautas bem-comportadas, atendendo a um objetivo claro, usando bots separados para atividades separadas e seguindo regras e sinais como robots.txt.
Fique conectado