Un agent d’intelligence artificielle entraîné par auto-apprentissage a atteint un niveau surhumain et la première place du classement mondial sur le jeu de stratégie en temps réel Generals.io.
Ce projet, initialement une thèse de master, visait à surpasser un algorithme préexistant. Les chercheurs y sont parvenus en combinant le clonage comportemental, l’ajustement par apprentissage par renforcement (RL) et une mise en forme des récompenses. Cependant, l’agent initial restait régulièrement battu par les meilleurs joueurs humains.
Une seconde phase de développement a permis de résoudre les principaux goulots d’étranglement. L’intégralité du pipeline a été réimplémentée en JAX, remplaçant les versions précédentes basées sur NumPy et PyTorch, et des « Vision Transformers » ont été utilisés. Ces améliorations ont conduit l’agent à surpasser tous les joueurs humains et à se classer numéro un du classement 1v1 de Generals.io.
Cette performance illustre le potentiel de l’auto-apprentissage par renforcement dans les jeux de stratégie en temps réel.
Source : Reddit r/MachineLearning