NVIDIA a introduit une méthode de génération de données synthétiques appelée « Task-Seeded Synthetic Data Generation » (TS-SDG) pour optimiser le pré-entraînement de ses grands modèles de langage, tel que Nemotron.
Face aux coûts et à la rareté des données annotées par des humains, le TS-SDG propose une solution. Cette approche utilise un petit ensemble d’exemples « graines » (seeds) créés par des humains pour guider un modèle de langage plus puissant, agissant comme « enseignant », dans la production de paires de questions-réponses synthétiques. L’objectif est de générer des données de haute qualité et diversifiées.
Ces données synthétiques sont ensuite employées pour pré-entraîner un modèle « étudiant », comme Nemotron-3 8B. Le processus vise à améliorer les performances du modèle sur des tâches variées, incluant le raisonnement, la programmation et les mathématiques, sans dépendre massivement de coûteuses annotations manuelles. Les résultats montrent que Nemotron-3 8B, entraîné avec TS-SDG, atteint des performances compétitives sur des benchmarks clés.
La méthode TS-SDG se distingue par son efficacité et sa capacité à être mise à l’échelle. Elle permet de réduire la dépendance aux ensembles de données coûteux tout en maintenant une qualité de formation élevée. Cette approche pourrait redéfinir l’acquisition de données pour les futurs développements de modèles d’IA.
Source : HuggingFace Blog