Entraîner des modèles IA massifs sur un seul GPU devient possible

Une nouvelle approche nommée MegaTrain permet désormais d’entraîner des modèles de langage de plus de 100 milliards de paramètres, en pleine précision, sur une unique carte graphique.

Contrairement aux systèmes classiques centrés sur le GPU, MegaTrain déplace les paramètres et les états de l’optimiseur vers la mémoire principale de l’ordinateur (RAM). Les GPU sont alors utilisés comme de simples unités de calcul temporaires. Les données sont chargées couche par couche, réduisant ainsi l’état persistant sur le matériel graphique.

Pour contourner le goulot d’étranglement de la bande passante entre le CPU et le GPU, le système optimise le flux de données. Cette méthode ouvre la voie à l’expérimentation et à l’entraînement de modèles d’une échelle sans précédent, potentiellement accessibles à un plus grand nombre de chercheurs et d’entreprises.

Source : Reddit r/artificial

Catégories : Brèves IA
← Article précédentOpenAI : une valorisation record, mais des inquiétudes internesArticle suivant →Safetensors rejoint la Fondation PyTorch

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES