Hugging Face a introduit une nouvelle approche, le « Delta Weight Sync », pour optimiser le déploiement et la mise à jour des modèles de langage à grande échelle, y compris ceux atteignant des milliers de milliards de paramètres.
Le transfert et le stockage de modèles d’IA massifs représentent un défi majeur pour les chercheurs et développeurs. Les modèles de langage modernes peuvent contenir des milliers de milliards de paramètres, rendant leur synchronisation complète chronophage et gourmande en ressources. Cette problématique freine l’expérimentation et la collaboration dans le domaine.
La méthode « Delta Weight Sync » résout ce problème en ne synchronisant que les différences (deltas) entre les versions d’un modèle. Plutôt que de transférer l’intégralité des poids, seuls les changements sont envoyés via un « Hub Bucket » intégré à TRL (Transformer Reinforcement Learning). Cela réduit drastiquement la quantité de données à échanger et le temps nécessaire.
Cette innovation permet des itérations plus rapides et une gestion plus efficace des modèles entraînés par renforcement. Elle facilite la collaboration en rendant les mises à jour de modèles plus légères et plus rapides à distribuer. L’objectif est d’accélérer le développement et l’expérimentation dans le domaine des grands modèles. Cette avancée pourrait simplifier la logistique des projets d’IA à grande échelle, ouvrant la voie à de nouvelles méthodes de travail collaboratif.
Source : HuggingFace Blog