Cloudflare accuse Perplexity d’aspirer furtivement les contenus web
Il y a les bons robots et les mauvais robots

Cloudflare, dans un rapport publié hier soir, pointe du doigt Perplexity pour ses techniques furtives. Les crawlers web de l’entreprise avanceraient masqués, modifiant leur agent utilisateur pour se faire passer pour ce qu’ils ne sont pas. Perplexity nie les accusations.
Dans son billet, Cloudflare dit avoir observé un comportement d’exploration furtive venant de Perplexity. Cette société, qui s’est fait une spécialité de la recherche sur web en se basant sur l’IA générative, chercherait volontairement à tromper les sites ayant déclaré qu’ils ne souhaitaient voir leurs contenus aspirer par des crawlers appartenant à des sociétés spécialisées dans l’IA.
Selon Cloudflare, Perplexity procèderait en deux temps. Initialement, les robots détectés seraient bien ceux de l’entreprise. Ce n’est qu’en lisant le fichier robot.txt que l’entreprise passerait à la deuxième phase. Si le fichier indique que les crawlers ne peuvent pas indexer le contenu pour des besoins d’entrainement des modèles d’intelligence artificielle, Perplexity présenterait d’autres robots. Ces derniers afficheraient un autre agent utilisateur (user agent), pour se faire passer pour des navigateurs tout ce qu’il y a de plus classique.
Campagne de détection
Cloudflare déclare avait été avertie par des clients. Selon l’entreprise, ceux-ci se seraient plaints de l’activité d’exploration de Perplexity. Certains auraient mis en place des règles WAF (pare-feu d’applications web) pour bloquer spécifiquement les deux robots de Perplexity, mais l’entreprise aurait continué ses activités, accédant au contenu même quand les robots étaient bloqués.
Dans son billet, Cloudflare dit avoir constaté sur certaines pages que les robots en question étaient bien bloqués et a donc mis en place plusieurs tests pour confirmer le comportement. L’entreprise a donc créé plusieurs nouveaux domaines. Tout juste achetés, ils n’étaient pas encore indexés par les robots et, selon Cloudflare, n’avaient pas été rendus publics « d’une manière découvrable ». Sur ces domaines, des fichiers robot.txt ont été placés pour interdire aux robots d’accéder aux sites.
Et c’est là que tout a basculé, selon Cloudflare : interrogé, Perplexity AI aurait été en mesure de répondre précisément à des questions sur le contenu de ces sites. « Perplexity fournissait toujours des informations détaillées sur le contenu exact hébergé sur chacun de ces domaines restreints. Cette réponse était inattendue, car nous avions pris toutes les précautions nécessaires pour éviter que ces données ne soient récupérables par leurs crawlers », déclare Cloudflare.

Techniques présumées de furtivité
Perplexity n’aurait en théorie jamais dû pouvoir répondre aux questions sur le contenu, puisque ses robots n’étaient pas censés en avoir indexé le contenu. Cloudflare indique avoir soigneusement configuré les fichiers robots.txt, ainsi que des règles WAF.
La société dit avoir constaté les deux passages des robots : d’abord les crawlers officiels, puis un autre, se faisant passer pour un navigateur générique, « destiné à se faire passer pour Google Chrome sur macOS ». Par le biais de son infrastructure, Cloudflare aurait compté de 20 à 25 millions de requêtes quotidiennes pour les robots officiels, et 3 à 6 millions pour le robot furtif.
Declared | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) | 20 - 25 m daily requests |
Stealth | Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 | 3 - 6 m daily requests |
Toujours selon l’entreprise, ce robot furtif aurait utilisé plusieurs adresses IP non répertoriées dans la plage IP officielle de Perplexity, en rotation pour s’adapter aux situations, dont les règles du fichier robots.txt.
Cloudflare dit également avoir observé des requêtes provenant de plusieurs ASN (numéro identifiant les grands réseaux sur internet), toujours pour éviter les blocages. Toute cette activité aurait été constatée sur des dizaines de milliers de domaines. Via des signaux réseau et un apprentissage automatique, Cloudflare dit avoir pris l’empreinte digitale de ce fameux robot furtif.
Cloudflare en profite pour dresser une liste de règles à respecter pour les robots « bien intentionnés » : être transparent (notamment au travers d’un agent utilisateur honnête et unique), ne pas inonder les sites web avec un trafic excessif, ne pas récupérer les données sensibles, éviter les techniques furtives, avoir un objectif clair et facilement consultable, utiliser des robots distincts selon les activités et respecter les règles mises en place par les sites.
« Sur la base du comportement observé de Perplexity, qui est incompatible avec ces préférences, nous l’avons retiré de la liste des bots vérifiés et ajouté des heuristiques à nos règles gérées qui bloquent cette exploration furtive », ajoute Cloudflare.
Pour Perplexity, les arguments de Cloudflare sont commerciaux
Interrogée par plusieurs médias, dont TechCrunch, Perplexity se défend de toute activité furtive. Jesse Dwyer, porte-parole de l’entreprise, affirme que l’exposé de Cloudflare n’est rien de plus qu’un « argumentaire de vente ». Les captures affichées par Cloudflare n’afficheraient rien d’incriminant, montreraient « qu’aucun contenu n’a été consulté » et que le robot en question ne serait pas de Perplexity.
Dans la foulée, Perplexity a publié son propre billet de blog. L’entreprise n’est pas tendre avec Cloudflare, qu’elle accuse d’incompétence. En cause, l’inaptitude de Cloudflare à savoir faire la différence entre un bot classique et un agent IA piloté par un utilisateur. « Avec l’essor des assistants alimentés par l’IA et des agents pilotés par l’utilisateur, la frontière entre ce qui est considéré comme « un simple robot » et ce qui répond aux besoins immédiats de personnes réelles est devenue de plus en plus floue », insiste l’entreprise.
Pour Perplexity, tout se jouerait sur cette différence, car les actions déclenchées au nom d’un internaute ne sont pas traitées de la même manière que les mécanismes automatiques comme les crawlers. « Lorsque Perplexity récupère une page Web, c’est parce que vous avez posé une question spécifique nécessitant des informations actuelles. Le contenu n’est pas stocké pour l’entraînement, il est utilisé immédiatement pour répondre à votre question », fait valoir l’entreprise.
« Un échec embarrassant »
« Cette controverse révèle que les systèmes de Cloudflare sont fondamentalement inadéquats pour faire la distinction entre les assistants d’IA légitimes et les menaces réelles. Si vous ne pouvez pas distinguer un assistant numérique utile d’un scraper malveillant, vous ne devriez probablement pas prendre de décisions sur ce qui constitue un trafic Web légitime », fustige Perplexity.
Pour cette dernière, Cloudflare voulait uniquement se faire de la publicité à bon compte, Perplexity fournissant « un nom utile ». Cliente de Cloudflare, l’entreprise ajoute que les 3 à 6 millions de requêtes quotidiennes attribuées au robot furtif supposé représentent « un échec d’analyse de trafic de base particulièrement embarrassant pour une entreprise dont l’activité principale est de comprendre et catégoriser le trafic web ».
Perplexity ajoute que Cloudflare serait restée silencieuse sur sa méthodologie exacte et aurait refusé de répondre aux questions.
Rappelons cependant que ce n’est pas la première fois que Perplexity se retrouve impliquée d’avoir aspirer des contenus sans autorisation. En juin 2024, Wired avait ainsi pesté contre cette activité, allant jusqu’à décrire le produit comme « une machine à conneries ». Le mois suivant, TechCrunch pointait que plusieurs médias accusaient Perplexity de plagiat et d’une absence d’éthique dans son aspiration du web.