Google conteste un taux d’erreur de 10 % pour ses AI Overviews, mais ses propres outils de test révèlent un chiffre de 22 %.
Les AI Overviews, la fonctionnalité de Google qui vise à synthétiser la meilleure réponse directement dans les résultats de recherche, sont sous le feu des critiques. Le New York Times avait initialement avancé un taux d’erreurs d’environ 10 % pour ces résumés générés par IA, en se basant sur un benchmark développé par OpenAI.
Google a rapidement réagi, contestant publiquement ce chiffre. L’entreprise a justifié sa position en affirmant que le benchmark d’OpenAI utilisé pour cette évaluation était biaisé et ne reflétait pas fidèlement la performance de ses systèmes. Paradoxalement, Google a ensuite communiqué les résultats de son propre outil de test, lequel, après avoir été revu et corrigé dans le but d’offrir une évaluation plus juste, a mis en évidence un taux d’erreurs de 22 %.
Cette divergence significative entre les évaluations externes et internes, ainsi que la contradiction interne chez Google, soulève des questions importantes quant à la fiabilité des méthodes de mesure de la précision des intelligences artificielles génératives et à la transparence de leur déploiement.
Source : Next.ink