Le test d’agents d’IA basés sur des modèles de langage pose un défi inédit aux professionnels de l’assurance qualité, habitués à des systèmes déterministes.
Un ingénieur QA expérimenté, ayant près d’une décennie d’expérience, témoigne de cette difficulté sur Reddit. Son modèle mental classique repose sur l’assertion d’une sortie Y pour une entrée X donnée. Cette approche se heurte à la nature imprévisible des agents d’IA générative.
L’agent en question, capable de gérer des tâches complexes en plusieurs étapes, fonctionne, mais ses résultats ne sont pas déterministes. La même entrée peut générer des chaînes de raisonnement différentes à chaque exécution. Même avec un paramètre de température nul (temp=0), des variations sont observées dans la sélection des outils et les étapes intermédiaires.
Cette imprévisibilité remet en question les méthodes de test rigoureuses traditionnellement employées. Les instincts habituels des testeurs ne s’appliquent plus directement, soulevant une interrogation fondamentale sur la manière d’assurer la qualité de ces systèmes en production.
Source : Reddit r/MachineLearning