Une nouvelle approche nommée MegaTrain permet désormais d’entraîner des modèles de langage de plus de 100 milliards de paramètres, en pleine précision, sur une unique carte graphique.
Contrairement aux systèmes classiques centrés sur le GPU, MegaTrain déplace les paramètres et les états de l’optimiseur vers la mémoire principale de l’ordinateur (RAM). Les GPU sont alors utilisés comme de simples unités de calcul temporaires. Les données sont chargées couche par couche, réduisant ainsi l’état persistant sur le matériel graphique.
Pour contourner le goulot d’étranglement de la bande passante entre le CPU et le GPU, le système optimise le flux de données. Cette méthode ouvre la voie à l’expérimentation et à l’entraînement de modèles d’une échelle sans précédent, potentiellement accessibles à un plus grand nombre de chercheurs et d’entreprises.
Source : Reddit r/artificial