L’évaluation d’un système d’agent conversationnel pour le support client révèle des défis pratiques inattendus. Des évaluateurs humains ont émis des signaux erronés, tandis que des bugs dans le système de récupération d’informations ont été confondus avec des défaillances du modèle de langage (LLM).
Une analyse structurée d’un système RAG (Retrieval-Augmented Generation) en production a utilisé Claude Haiku comme juge IA. Ce dernier a noté la pertinence, l’exactitude et l’utilité des réponses sur une échelle de 0 à 10, en fournissant des justifications. Cependant, les résultats suggèrent que la frontière de Pareto entre coût et qualité n’est pas toujours intuitive.
Ces observations soulignent la complexité de l’audit des systèmes d’IA conversationnelle et la nécessité d’une méthodologie rigoureuse pour distinguer les problèmes liés au LLM de ceux inhérents à l’infrastructure sous-jacente. La fiabilité des évaluations automatiques reste un enjeu.
Source : Reddit r/MachineLearning