Défaillances de l’IA en recherche

La Recherche Approfondie («Deep Research») est, à mon avis, l’un des meilleurs cas d’usage des LLMs. Même les plus anti-IA de mes amis reconnaissent qu’il s’agit d’un apport positif. Comme elle s’appuie sur des sources vérifiables pour répondre aux requêtes, les hallucinations deviennent plus rares et peuvent être facilement identifiées en vérifiant les sources. C’est un usage de l’IA où l’on peut avoir une confiance relativement élevée dans les résultats.

Qu’est-ce que la recherche approfondie ?

La recherche approfondie désigne l’utilisation d’un «harnais»/«échafaudage»/«structure» autour des LLMs pour effectuer des recherches web… approfondies. Contrairement à un simple chat, elle implique de faire plusieurs recherches connexes (similaires à la «prompt augmentation»), d’agréger les résultats de recherche et de produire une synthèse finale.

Cette approche apporte une amélioration significative par rapport à un simple chat pour des sujets complexes, en particulier concernant le problème des hallucinations. En ancrant les réponses dans des sources, le risque d’inventer des informations est grandement réduit. De plus, les citations permettent de vérifier les affirmations.Lorsqu’on a besoin d’avoir un aperçu d’un sujet complexe qu’on ne maîtrise pas, cela peut faire gagner beaucoup de temps.

Quelques implémentations actuelles de la recherche approfondie :

Perplexity : Reformule la requête de l’utilisateur 5 à 10 fois, récupère environ 20 sources par requête, puis synthétise les résultats.
Mistral : Propose un plan de recherche, obtient des corrections et l’approbation de l’utilisateur, exécute le plan et fait un résumé des résultats.
ChatGPT : Demande des clarifications, puis commence les recherches.

Ces implémentations pourraient être affinées, avec plusieurs tours de recherches par exemple. Avec le développement des agents, ce type de capacité devrait devenir plus courant, même si ce n’est pas sous le nom de Recherche Approfondie (mais c’est une histoire pour un autre article).

Les modes de défaillance de la recherche approfondie par LLM

Les hallucinations persistent

Commençons par le plus évident. Ordonner au modèle de fonder ses réponses sur les résultats de recherche élimine la plupart des hallucinations, mais pas toutes. Pour les requêtes sans réponse claire, le LLM a tendance à halluciner une solution ET une source pour celle-ci, allant parfois jusqu’à fournir de vrais liens vers des articles sans rapport avec la question. Il peut même persister dans son erreur lorsqu’on la met en évidence.

Cela peut être vicieux, surtout parce que dans de nombreux cas (du moins pour moi), les questions sans réponse claire sont celles pour lesquelles j’utilise le plus la Recherche Approfondie. La valeur ajoutée de la Recherche Approfondie réside donc surtout dans la collecte, l’analyse et le filtrage de nombreuses sources, mais celle-ci ne remplace pas la lecture par soi-même des sources primaires.

Le biais de sélection des sources

L’autre problème, plus général, de la recherche approfondie concerne les sources fournies au LLM pour générer sa réponse.

1. robots.txt : un accès inégal entre humains et bots

La plupart des sites web disposent d’un fichier robots.txt, qui peut exclure les robots de l’accès à leur contenu. Avec l’augmentation du trafic Internet dû aux crawlers, de nombreux sites ont ajouté les grands labos d’IA à leur fichier robots.txt. Rien n’oblige vraiment ces laboratoires à respecter cette politique anti-crawling, et on peut raisonnablement douter qu’ils le fassent vraiment. Mais s’ils le faisaient, il y aurait une asymétrie entre les sources qu’un humain peut voir et celles auxquelles un bot peut accéder. La Recherche Approfondie ne pourrait alors pas effectuer de recherches web exhaustives et pourrait laisser de côté des sources importantes.

2. Articles rétractés : gérer le contexte

Un mode de défaillance particulier (et, il faut dire, assez spécifique) de la recherche approfondie concerne les articles académiques rétractés. Les normes de publication scientifique exigent que, si un article publié est un jour jugé non fiable (en raison d’erreurs méthodologiques, de fraude ou d’entorse à l’éthique, etc.), l’éditeur ajoute une Expression de Préoccupation («Expression of concern») ou bien un Avis de rétractation. Cependant, un article « rétracté » reste généralement en ligne, mais avec un grand bandeau rouge avertissant les utilisateurs de la rétractation, avant qu’ils ne téléchargent le fichier PDF de l’article.

Actuellement, une IA effectuant une Recherche Approfondie ignore totalement ce contexte et traite le PDF séparément du texte du site web. J’ai effectué quelques tests avec des requêtes basées sur le contenu d’études rétractées : le LLM a trouvé les études et a présenté leur contenu comme s’il s’agissait de résultats prouvés et établis, sans la moindre mention de la rétractation.

3. Biais linguistique

La plupart des recherches renvoient des résultats dans la langue de la requête. Ce problème touche aussi bien les moteurs de recherche classiques que la Recherche Approfondie. Par exemple, une requête en français sur des événements en Géorgie ne renvoie que des résultats en français (et un peu en anglais) mais aucun en géorgien. Cela pose évidemment problème lorsque les résultats de recherche les plus pertinents sont dans une langue différente de celle de la requête. Ça concerne non seulement ceux qui recherchent des informations sur les régions peu documentées, mais aussi la plupart des non-anglophones qui effectuent des recherches en informatique, ou bien les questions techniques dont l’unique réponse se trouve dans un forum japonais obscur (ce qui m’est arrivé plus d’une fois).

Des recherches sont en cours pour éliminer ce biais linguistique dans la recherche sémantique, mais cela n’est pas encore implémenté dans les moteurs de recherche et le problème ne semble pas soulever beaucoup d’intérêt. Une solution simple consiste à ordonner explicitement au LLM de reformuler les requêtes de recherche dans la langue la plus pertinente pour le sujet, mais il faut penser à le faire.

Dégradation silencieuse du produit

Les entreprises peuvent dégrader discrètement la qualité de leur Recherche Approfondie afin de réduire les coûts. Certaines entreprises ont été accusées de réduire le nombre de recherches par requête ou d’abaisser le seuil de pertinence des sources, ce qui conduit à des résultats moins informatifs et à des recherches moins exhaustives. Ce n’est pas un problème de la Recherche Approfondie en soi, mais plutôt un problème général de l’industrie de l’IA actuelle.

Et alors ?

La recherche approfondie est l’un des rares cas qui tire le meilleur parti des points forts des LLMs (résumer et synthétiser des informations), mais ces écueils doivent encore être résolus. De meilleurs harnais suffiraient à résoudre une bonne partie de ces problèmes sans percée technologique. J’ai donc bon espoir que la qualité de nos recherches approfondies continuera de s’améliorer.