Un compilateur "hackable" pour GPU optimise les modèles d'IA - IA Actu

Un nouveau compilateur « hackable » a été développé pour générer des noyaux GPU efficaces pour les modèles d’IA, surpassant les performances de PyTorch.

Le développement de compilateurs pour l’apprentissage automatique, notamment pour les grands modèles de langage (LLM), est notoirement complexe. Les piles logicielles actuelles, telles que TVM avec ses plus de 500 000 lignes de code C++ ou l’intégration de Dynamo, Inductor et Triton dans PyTorch, illustrent cette complexité.

Dans ce contexte, un chercheur a entrepris de construire un compilateur LLM « hackable » à partir de zéro. Ce nouvel outil est conçu pour transformer de petits modèles, comme TinyLlama ou Qwen2.5-7B, en une séquence de noyaux CUDA optimisés, en passant par six représentations intermédiaires (IR).

Les premiers résultats sur une carte RTX 5090 montrent que les noyaux FP32 générés fonctionnent en moyenne géométrique 1,11 fois plus vite que PyTorch en mode eager et 1,20 fois plus vite que torch.compile. Le compilateur atteint une parité complète sur des blocs pour TinyLlama-128 et Qwen2.5-7B.

Cette approche pourrait ouvrir la voie à des optimisations plus poussées et à une meilleure compréhension des processus de compilation pour l’IA.

Source : Reddit r/MachineLearning

Un compilateur « hackable » pour GPU optimise les modèles d’IA

Laisser un commentaire Annuler

Restez informé de l'actualité IA

Laisser un commentaire Annuler

Rubriques

À propos

Légal

Mes sauvegardes