Un compilateur « hackable » pour GPU optimise les modèles d’IA

Un nouveau compilateur « hackable » a été développé pour générer des noyaux GPU efficaces pour les modèles d’IA, surpassant les performances de PyTorch.

Le développement de compilateurs pour l’apprentissage automatique, notamment pour les grands modèles de langage (LLM), est notoirement complexe. Les piles logicielles actuelles, telles que TVM avec ses plus de 500 000 lignes de code C++ ou l’intégration de Dynamo, Inductor et Triton dans PyTorch, illustrent cette complexité.

Dans ce contexte, un chercheur a entrepris de construire un compilateur LLM « hackable » à partir de zéro. Ce nouvel outil est conçu pour transformer de petits modèles, comme TinyLlama ou Qwen2.5-7B, en une séquence de noyaux CUDA optimisés, en passant par six représentations intermédiaires (IR).

Les premiers résultats sur une carte RTX 5090 montrent que les noyaux FP32 générés fonctionnent en moyenne géométrique 1,11 fois plus vite que PyTorch en mode eager et 1,20 fois plus vite que torch.compile. Le compilateur atteint une parité complète sur des blocs pour TinyLlama-128 et Qwen2.5-7B.

Cette approche pourrait ouvrir la voie à des optimisations plus poussées et à une meilleure compréhension des processus de compilation pour l’IA.

Source : Reddit r/MachineLearning

Catégories : Brèves IA
← Article précédentLe balisage Schema n'augmente pas les citations IA selon AhrefsArticle suivant →ChatGPT : l'adoption s'élargit aux plus de 35 ans et aux genres équilibrés

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES