Les outils de recherche en ligne basés sur l’IA générative sont nuls pour citer l’actu

En étudiant huit moteurs de recherche s’appuyant sur l’IA générative, deux chercheuses ont observé qu’en moyenne, ceux-ci ont fourni des réponses incorrectes à plus de 60 % des demandes.
De plus en plus d’internautes utilisent des outils d’IA générative pour chercher de l’information en ligne. Mais sont-ils fiables ? Pas tant que ça apparemment, d’après les chercheuses du Tow Center for Digital Journalism de Columbia, Klaudia Jaźwińska et Aisvarya Chandrasekar. Elles ont évalué huit d’entre eux : ChatGPT Search, Perplexity, Perplexity Pro, DeepSeek Search, Copilot, Grok-2 Search, Grok-3 Search et enfin Gemini.
On savait déjà que les chatbots comme ChatGPT hallucinaient régulièrement des citations, mais on aurait pu espérer que les outils de recherche basés sur l’IA auraient de meilleurs garde-fous dans ce domaine notamment, grâce par exemple au RAG (Retrieval-Augmented Generation).
Mais comment faire pour vérifier ?
Elles ont mis en place un protocole assez simple pour contrôler si chacun des outils testés attribuait bien au texte d’un article d’actualité les métadonnées comme l’URL, le titre, l’éditeur original et la date. Ainsi, la méthode vérifierait si, oui ou non, ils étaient au moins fiables dans leur capacité à faire correctement le lien entre une source et son extrait.
Les deux chercheuses ont donc sélectionné aléatoirement 10 articles de 20 sites d’information américains comme TechCrunch, Time, le Wall Street Journal, ProPublica, National Geographic ou encore le Boston Globe. Elles en ont tiré des extraits manuellement, puis ont vérifié qu’en collant ces extraits dans le moteur de recherche traditionnel de Google, la source originale apparaissait bien dans les trois premiers résultats.
Elles ont ensuite fourni à l’outil testé chaque extrait et lui ont demandé d’identifier le titre de l’article correspondant, l’éditeur original, la date de publication et l’URL.

Enfin, elles ont évalué la réponse en six catégories : correcte, correcte mais incomplète, partiellement incorrecte, complètement incorrecte, sans réponse et crawler bloqué (quand le site interdit le crawler du chatbot dans son fichier robots.txt).
Plus de 60 % de réponses incorrectes
Elles ont publié leurs résultats dans un article du magazine Columbia Journalism Review. En moyenne, les outils de recherche ont donc donné plus de 60 % de réponses incorrectes. « Le niveau d’inexactitude varie d’une plateforme à l’autre : Perplexity a répondu de manière incorrecte à 37 % des requêtes, tandis que Grok 3 a enregistré un taux d’erreur beaucoup plus élevé, répondant de manière incorrecte à 94 % des requêtes », expliquent les chercheuses.

Elles font remarquer que Copilot est le seul à avoir décliné plus de questions qu’il n’a apporté de réponses. Pendant ce temps-là, tous les autres ont fourni plus de réponses incorrectes que de non-réponses.
Elles soulignent un élément particulièrement frappant. Lorsque qu’on compare les outils Grok et Perplexity, testés dans leurs versions gratuites et payantes, les tests montrent « que si les deux [modèles payants] ont répondu correctement à un plus grand nombre de questions que leurs équivalents gratuits correspondants, ils ont paradoxalement aussi montré des taux d’erreur plus élevés ». Grok-3 Search et Perplexity Pro ont tendance à livrer une réponse coûte que coûte.

Certains récupèrent des informations de sites qui les bloquent
Comme les moteurs de recherche ordinaires, ces outils utilisent des robots d’indexation qui parcourent le web. Trois d’entre eux (DeepSeek, Grok 2, et Grok 3) n’ont pas révélé publiquement le nom de leurs robots. Les éditeurs ne peuvent donc pas bloquer l’indexation de leurs sites par ces outils.
Mais les cinq autres (ChatGPT Search, Perplexity, Perplexity Pro, Copilot et Gemini) les ont rendus publics. Les éditeurs peuvent théoriquement interdire qu’ils parcourent leurs sites en l’indiquant dans le fichier robots.txt.
En analysant les résultats ci-dessous, on remarque que Copilot est le seul à n’être bloqué par aucun des éditeurs. Cela s’explique facilement par le fait que l’outil de Microsoft utilise BingBot, le robot d’indexation du moteur de recherche de l’entreprise. S’ils le bloquent, les éditeurs se coupent donc aussi de l’indexation dans Bing. Paradoxalement, Copilot a le plus haut taux de non-réponse.
Mais les autres ont parfois correctement attribué toutes les métadonnées d’un article alors qu’ils n’étaient pas censés l’indexer.

« Perplexity Pro a été le plus mauvais élève à cet égard, identifiant correctement près d’un tiers des quatre-vingt-dix extraits d’articles auxquels il n’aurait pas dû avoir accès », expliquent les chercheuses. Elles ajoutent : « étonnamment, la version gratuite de Perplexity a correctement identifié les dix extraits d’articles payants du National Geographic que nous avons partagés, bien que l’éditeur ait interdit les robots d’indexation de Perplexity et n’ait aucune relation formelle avec la société d’IA ».
Du côté de Google, qui a créé un robot spécifique pour Gemini, « son crawler a été autorisé par dix des vingt éditeurs que nous avons testés, mais Gemini n’a fourni une réponse totalement correcte qu’à une seule occasion ». Les chercheuses expliquent notamment que, lorsqu’il s’agissait d’extraits d’articles liés à la politique, l’outil donnait des réponses comme : « Je ne peux pas vous aider à répondre aux questions sur les élections et les personnalités politiques pour le moment. Je suis entrainé pour être aussi précise que possible, mais il m’arrive de faire des erreurs. Pendant que je travaille à améliorer la façon dont je peux parler des élections et de la politique, vous pouvez essayer la recherche sur Google ».
Plus en détail, en regardant s’ils ont correctement identifié l’article dont provient la source, les chercheuses ont remarqué que DeepSeek Search se trompait pour 115 des 200 articles présentés.

Même lorsque l’article était bien identifié, l’URL proposée n’était souvent pas la bonne. À certaines occasions, les outils les « ont dirigé vers des versions syndiquées d’articles sur des plateformes telles que Yahoo News ou AOL plutôt que vers les sources originales – souvent même lorsque l’éditeur était connu pour avoir conclu un accord de licence avec la société d’IA ».
Et avoir conclu un accord avec l’entreprise qui édite l’outil de recherche n’augmente pas la qualité des réponses :
