Une nouvelle approche nommée Direct Preference Optimization (DPO) permet d’entraîner des modèles d’intelligence artificielle en se basant sur des préférences humaines, sans nécessiter de données de comparaison complexes.
Initialement conçue pour affiner les grands modèles linguistiques (LLM) afin qu’ils répondent mieux aux requêtes des utilisateurs, la méthode DPO s’avère adaptable à d’autres types de modèles. Elle simplifie le processus d’alignement des IA avec les intentions humaines en utilisant directement les préférences exprimées, plutôt que des données de classement ou des modèles de récompense intermédiaires.
Cette flexibilité ouvre la voie à l’application du DPO dans des domaines variés, comme la génération d’images ou la création de code, où l’alignement sur des critères subjectifs est crucial. L’exploration de son potentiel dans ces nouveaux contextes est en cours.
Source : HuggingFace Blog