Les limites des agents de recherche IA révélées
Les agents de recherche IA comme GPT-5.4 ou Gemini 3.1 Pro obtiennent des scores élevés sur BrowseComp mais peinent à effectuer des recherches réelles. Une étude montre qu'ils dépendent majoritairement de leurs connaissances internes, avec une chute de performance de 44,5% à 8% pour MiniMax M2.5 lorsqu'ils doivent chercher des informations nouvelles.
« The search actively pulls agents away from correct gut-feeling answers as soon as no confirming hits show up. » — The Decoder
Que faut-il retenir ?
- MiniMax M2.5 résout 44,5% des tâches BrowseComp sans accès internet.
- Kimi K2.6 atteint 62% sur BrowseComp-ZH sans outils de recherche.
- Avec recherche mais sans documents pertinents, MiniMax M2.5 chute à 8%.
- Les agents n'utilisent les sources trouvées que moins d'un tiers du temps.
Pourquoi cette nouvelle compte-t-elle ?
Cette étude révèle un biais majeur dans les agents de recherche IA actuels : leur dépendance aux connaissances internes limite leur capacité à effectuer des recherches objectives. Pour les professionnels, cela implique de vérifier systématiquement les sources et de ne pas se fier uniquement aux résultats des IA pour des informations critiques ou récentes.
44,5% des tâches BrowseComp résolues par MiniMax M2.5 sans recherche web
Public concerné : développeurs, entreprises
Pourquoi les agents de recherche IA peinent-ils à trouver des informations nouvelles ?
Les modèles dépendent principalement de leurs connaissances internes acquises lors de l'entraînement. Lorsqu'ils doivent chercher des informations récentes ou obscures, leur performance chute drastiquement car ils privilégient la confirmation de leurs hypothèses plutôt qu'une recherche objective.