Un débogueur détecte le « reward hacking » en apprentissage par renforcement
Une nouvelle bibliothèque, rewardspy, a été conçue pour détecter le « reward hacking » en apprentissage par renforcement, un phénomène où l’IA exploite la fonction de récompense sans réelle amélioration.