L’optimisation des préférences directes s’étend au-delà des chatbots

Une nouvelle approche nommée Direct Preference Optimization (DPO) permet d’entraîner des modèles d’intelligence artificielle en se basant sur des préférences humaines, sans nécessiter de données de comparaison complexes.

Initialement conçue pour affiner les grands modèles linguistiques (LLM) afin qu’ils répondent mieux aux requêtes des utilisateurs, la méthode DPO s’avère adaptable à d’autres types de modèles. Elle simplifie le processus d’alignement des IA avec les intentions humaines en utilisant directement les préférences exprimées, plutôt que des données de classement ou des modèles de récompense intermédiaires.

Cette flexibilité ouvre la voie à l’application du DPO dans des domaines variés, comme la génération d’images ou la création de code, où l’alignement sur des critères subjectifs est crucial. L’exploration de son potentiel dans ces nouveaux contextes est en cours.

Source : HuggingFace Blog

Catégories : Brèves IA
← Article précédentE.ON modernise ses réseaux électriques grâce à SAP S/4HANA et l'IAArticle suivant →Google Search optimise la recherche d'articles d'occasion et vintage

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES