{"id":175,"date":"2026-05-05T13:10:31","date_gmt":"2026-05-05T13:10:31","guid":{"rendered":"https:\/\/blog.chataignon.org\/joseph\/?p=175"},"modified":"2026-05-05T13:10:32","modified_gmt":"2026-05-05T13:10:32","slug":"defaillances-de-lia-en-recherche","status":"publish","type":"post","link":"https:\/\/blog.chataignon.org\/joseph\/fr\/post-175\/defaillances-de-lia-en-recherche\/","title":{"rendered":"D\u00e9faillances de l&rsquo;IA en recherche"},"content":{"rendered":"\n<p>La Recherche Approfondie (\u00ab<em>Deep Research<\/em>\u00bb) est, \u00e0 mon avis, l\u2019un des meilleurs cas d\u2019usage des LLMs. M\u00eame les plus anti-IA de mes amis reconnaissent qu\u2019il s\u2019agit d\u2019un apport positif. Comme elle s\u2019appuie sur des sources v\u00e9rifiables pour r\u00e9pondre aux requ\u00eates, les hallucinations deviennent plus rares et peuvent \u00eatre facilement identifi\u00e9es en v\u00e9rifiant les sources. C&rsquo;est un usage de l\u2019IA o\u00f9 l\u2019on peut avoir une confiance relativement \u00e9lev\u00e9e dans les r\u00e9sultats.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Qu&rsquo;est-ce que la recherche approfondie ?<\/h3>\n\n\n\n<p>La recherche approfondie d\u00e9signe l\u2019utilisation d\u2019un \u00abharnais\u00bb\/\u00ab\u00e9chafaudage\u00bb\/\u00abstructure\u00bb autour des LLMs pour effectuer des recherches web&#8230; approfondies. Contrairement \u00e0 un simple chat, elle implique de faire plusieurs recherches connexes (similaires \u00e0 la \u00ab<em>prompt augmentation<\/em>\u00bb), d\u2019agr\u00e9ger les r\u00e9sultats de recherche et de produire une synth\u00e8se finale.<\/p>\n\n\n\n<p>Cette approche apporte une am\u00e9lioration significative par rapport \u00e0 un simple chat pour des sujets complexes, en particulier concernant le probl\u00e8me des hallucinations. En ancrant les r\u00e9ponses dans des sources, le risque d&rsquo;inventer des informations est grandement r\u00e9duit. De plus, les citations permettent de v\u00e9rifier les affirmations.Lorsqu&rsquo;on a besoin d\u2019avoir un aper\u00e7u d\u2019un sujet complexe qu&rsquo;on ne ma\u00eetrise pas, cela peut faire gagner beaucoup de temps.<\/p>\n\n\n\n<p>Quelques impl\u00e9mentations actuelles de la recherche approfondie :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Perplexity : Reformule la requ\u00eate de l\u2019utilisateur 5 \u00e0 10 fois, r\u00e9cup\u00e8re environ 20 sources par requ\u00eate, puis synth\u00e9tise les r\u00e9sultats.<\/li>\n\n\n\n<li>Mistral : Propose un plan de recherche, obtient des corrections et l\u2019approbation de l\u2019utilisateur, ex\u00e9cute le plan et fait un r\u00e9sum\u00e9 des r\u00e9sultats.<\/li>\n\n\n\n<li>ChatGPT : Demande des clarifications, puis commence les recherches.<\/li>\n<\/ul>\n\n\n\n<p>Ces impl\u00e9mentations pourraient \u00eatre affin\u00e9es, avec plusieurs tours de recherches par exemple. Avec le d\u00e9veloppement des agents, ce type de capacit\u00e9 devrait devenir plus courant, m\u00eame si ce n&rsquo;est pas sous le nom de Recherche Approfondie (mais c\u2019est une histoire pour un autre article).<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h3 class=\"wp-block-heading\">Les modes de d\u00e9faillance de la recherche approfondie par LLM<\/h3>\n\n\n\n<h4 class=\"wp-block-heading\">Les hallucinations persistent<\/h4>\n\n\n\n<p>Commen\u00e7ons par le plus \u00e9vident. Ordonner au mod\u00e8le de fonder ses r\u00e9ponses sur les r\u00e9sultats de recherche \u00e9limine la plupart des hallucinations, mais pas toutes. Pour les requ\u00eates sans r\u00e9ponse claire, le LLM a tendance \u00e0 halluciner une solution <strong>ET<\/strong> une source pour celle-ci, allant parfois jusqu\u2019\u00e0 fournir de vrais liens vers des articles sans rapport avec la question. Il peut m\u00eame persister dans son erreur lorsqu\u2019on la met en \u00e9vidence.<\/p>\n\n\n\n<p>Cela peut \u00eatre vicieux, surtout parce que dans de nombreux cas (du moins pour moi), les questions sans r\u00e9ponse claire sont celles pour lesquelles j\u2019utilise le plus la Recherche Approfondie. La valeur ajout\u00e9e de la Recherche Approfondie r\u00e9side donc surtout dans la collecte, l\u2019analyse et le filtrage de nombreuses sources, mais celle-ci ne remplace pas la lecture par soi-m\u00eame des sources primaires.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Le biais de s\u00e9lection des sources<\/h4>\n\n\n\n<p>L\u2019autre probl\u00e8me, plus g\u00e9n\u00e9ral, de la recherche approfondie concerne les sources fournies au LLM pour g\u00e9n\u00e9rer sa r\u00e9ponse.<\/p>\n\n\n\n<h5 class=\"wp-block-heading\">1. robots.txt : un acc\u00e8s in\u00e9gal entre humains et bots<\/h5>\n\n\n\n<p>La plupart des sites web disposent d\u2019un fichier <code>robots.txt<\/code>, qui peut exclure les robots de l\u2019acc\u00e8s \u00e0 leur contenu. Avec l\u2019augmentation du trafic Internet d\u00fb aux crawlers, de nombreux sites ont ajout\u00e9 les grands labos d\u2019IA \u00e0 leur fichier <code>robots.txt<\/code>. Rien n\u2019oblige vraiment ces laboratoires \u00e0 respecter cette politique anti-crawling, et on peut raisonnablement douter qu\u2019ils le fassent vraiment. Mais s\u2019ils le faisaient, il y aurait une asym\u00e9trie entre les sources qu\u2019un humain peut voir et celles auxquelles un bot peut acc\u00e9der. La Recherche Approfondie ne pourrait alors pas effectuer de recherches web exhaustives et pourrait laisser de c\u00f4t\u00e9 des sources importantes.<\/p>\n\n\n\n<h5 class=\"wp-block-heading\">2. Articles r\u00e9tract\u00e9s : g\u00e9rer le contexte<\/h5>\n\n\n\n<p>Un mode de d\u00e9faillance particulier (et, il faut dire, assez sp\u00e9cifique) de la recherche approfondie concerne les articles acad\u00e9miques r\u00e9tract\u00e9s. Les normes de publication scientifique exigent que, si un article publi\u00e9 est un jour jug\u00e9 non fiable (en raison d\u2019erreurs m\u00e9thodologiques, de fraude ou d&rsquo;entorse \u00e0 l&rsquo;\u00e9thique, etc.), l\u2019\u00e9diteur ajoute une Expression de Pr\u00e9occupation (\u00ab<em>Expression of concern<\/em>\u00bb) ou bien un Avis de r\u00e9tractation. Cependant, un article \u00ab r\u00e9tract\u00e9 \u00bb reste g\u00e9n\u00e9ralement en ligne, mais avec un grand bandeau rouge avertissant les utilisateurs de la r\u00e9tractation, avant qu\u2019ils ne t\u00e9l\u00e9chargent le fichier PDF de l\u2019article.<\/p>\n\n\n\n<p>Actuellement, une IA effectuant une Recherche Approfondie ignore totalement ce contexte et traite le PDF s\u00e9par\u00e9ment du texte du site web. J\u2019ai effectu\u00e9 quelques tests avec des requ\u00eates bas\u00e9es sur le contenu d\u2019\u00e9tudes r\u00e9tract\u00e9es : le LLM a trouv\u00e9 les \u00e9tudes et a pr\u00e9sent\u00e9 leur contenu comme s\u2019il s\u2019agissait de r\u00e9sultats prouv\u00e9s et \u00e9tablis, sans la moindre mention de la r\u00e9tractation.<\/p>\n\n\n\n<h5 class=\"wp-block-heading\">3. Biais linguistique<\/h5>\n\n\n\n<p>La plupart des recherches renvoient des r\u00e9sultats dans la langue de la requ\u00eate. Ce probl\u00e8me touche aussi bien les moteurs de recherche classiques que la Recherche Approfondie. Par exemple, une requ\u00eate en fran\u00e7ais sur des \u00e9v\u00e9nements en G\u00e9orgie ne renvoie que des r\u00e9sultats en fran\u00e7ais (et un peu en anglais) mais aucun en g\u00e9orgien. Cela pose \u00e9videmment probl\u00e8me lorsque les r\u00e9sultats de recherche les plus pertinents sont dans une langue diff\u00e9rente de celle de la requ\u00eate. \u00c7a concerne non seulement ceux qui recherchent des informations sur les r\u00e9gions peu document\u00e9es, mais aussi la plupart des non-anglophones qui effectuent des recherches en informatique, ou bien les questions techniques dont l&rsquo;unique r\u00e9ponse se trouve dans un forum japonais obscur (ce qui m\u2019est arriv\u00e9 plus d\u2019une fois).<\/p>\n\n\n\n<p>Des <a href=\"https:\/\/arxiv.org\/abs\/2409.15664\">recherches<\/a> sont en cours pour \u00e9liminer ce biais linguistique dans la recherche s\u00e9mantique, mais cela n\u2019est pas encore impl\u00e9ment\u00e9 dans les moteurs de recherche et le probl\u00e8me ne semble pas soulever beaucoup d&rsquo;int\u00e9r\u00eat. Une solution simple consiste \u00e0 ordonner explicitement au LLM de reformuler les requ\u00eates de recherche dans la langue la plus pertinente pour le sujet, mais il faut penser \u00e0 le faire.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">D\u00e9gradation silencieuse du produit<\/h4>\n\n\n\n<p>Les entreprises peuvent d\u00e9grader discr\u00e8tement la qualit\u00e9 de leur Recherche Approfondie afin de r\u00e9duire les co\u00fbts. Certaines entreprises ont \u00e9t\u00e9 accus\u00e9es de r\u00e9duire le nombre de recherches par requ\u00eate ou d\u2019abaisser le seuil de pertinence des sources, ce qui conduit \u00e0 des r\u00e9sultats moins informatifs et \u00e0 des recherches moins exhaustives. Ce n\u2019est pas un probl\u00e8me de la Recherche Approfondie en soi, mais plut\u00f4t un probl\u00e8me g\u00e9n\u00e9ral de l\u2019industrie de l&rsquo;IA actuelle.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" \/>\n\n\n\n<h3 class=\"wp-block-heading\">Et alors ?<\/h3>\n\n\n\n<p>La recherche approfondie est l\u2019un des rares cas qui tire le meilleur parti des points forts des LLMs (r\u00e9sumer et synth\u00e9tiser des informations), mais ces \u00e9cueils doivent encore \u00eatre r\u00e9solus. De meilleurs <em>harnais<\/em> suffiraient \u00e0 r\u00e9soudre une bonne partie de ces probl\u00e8mes sans perc\u00e9e technologique. J\u2019ai donc bon espoir que la qualit\u00e9 de nos recherches approfondies continuera de s\u2019am\u00e9liorer.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>La Recherche Approfondie (\u00abDeep Research\u00bb) est, \u00e0 mon avis, l\u2019un des meilleurs cas d\u2019usage des LLMs. M\u00eame les plus anti-IA [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"footnotes":""},"categories":[11,13],"tags":[],"class_list":["post-175","post","type-post","status-publish","format-standard","hentry","category-ia","category-llm"],"_links":{"self":[{"href":"https:\/\/blog.chataignon.org\/joseph\/wp-json\/wp\/v2\/posts\/175","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.chataignon.org\/joseph\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.chataignon.org\/joseph\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.chataignon.org\/joseph\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.chataignon.org\/joseph\/wp-json\/wp\/v2\/comments?post=175"}],"version-history":[{"count":2,"href":"https:\/\/blog.chataignon.org\/joseph\/wp-json\/wp\/v2\/posts\/175\/revisions"}],"predecessor-version":[{"id":178,"href":"https:\/\/blog.chataignon.org\/joseph\/wp-json\/wp\/v2\/posts\/175\/revisions\/178"}],"wp:attachment":[{"href":"https:\/\/blog.chataignon.org\/joseph\/wp-json\/wp\/v2\/media?parent=175"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.chataignon.org\/joseph\/wp-json\/wp\/v2\/categories?post=175"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.chataignon.org\/joseph\/wp-json\/wp\/v2\/tags?post=175"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}