Les agents de recherche basés sur l’intelligence artificielle, à l’instar de modèles de pointe comme GPT-5.4 et Kimi K2.6, semblent fréquemment privilégier la confirmation de leurs connaissances préexistantes plutôt qu’une véritable exploration active du web.
Cette tendance a été mise en évidence par des chercheurs du Harbin Institute of Technology. Ils ont conçu un nouveau banc d’essai temporel, baptisé LiveBrowseComp, qui évalue spécifiquement les capacités des modèles à répondre à des questions portant sur des événements survenus au cours des 90 derniers jours.
L’étude révèle que lorsque ces systèmes ne peuvent plus s’appuyer sur les vastes données de leur entraînement initial, leurs performances chutent de manière significative, entraînant un remaniement complet des classements habituels des agents de recherche. Cette observation soulève des interrogations importantes quant à la capacité réelle de ces systèmes à fournir des informations constamment à jour et à éviter les biais potentiels liés à leur apprentissage initial.
Source : The Decoder