Un nouvel outil, baptisé rewardspy, a été développé pour aider les chercheurs en apprentissage par renforcement (RL) à identifier le phénomène de « reward hacking » durant l’entraînement des modèles. Cette bibliothèque vise à résoudre une difficulté courante où il devient ardu de distinguer si une politique d’IA s’améliore réellement ou si elle exploite simplement les failles de sa fonction de récompense.
Le développeur de rewardspy a constaté ce problème lors d’expérimentations avec l’entraînement GRPO. Le « reward hacking » survient lorsque l’agent optimise la récompense sans pour autant progresser vers l’objectif souhaité, rendant l’évaluation des performances trompeuse.
La bibliothèque rewardspy s’intègre aux fonctions de récompense existantes et surveille en continu plusieurs indicateurs précurseurs du « reward hacking ». Elle suit notamment les statistiques de récompense glissantes, l’effondrement de la variance de récompense, le déséquilibre des composants de récompense et la dérive de la longueur de réponse. Cet outil pourrait améliorer la robustesse et la fiabilité des agents RL.
Source : Reddit r/MachineLearning