Un nouveau compilateur « hackable » a été développé pour générer des noyaux GPU efficaces pour les modèles d’IA, surpassant les performances de PyTorch.
Le développement de compilateurs pour l’apprentissage automatique, notamment pour les grands modèles de langage (LLM), est notoirement complexe. Les piles logicielles actuelles, telles que TVM avec ses plus de 500 000 lignes de code C++ ou l’intégration de Dynamo, Inductor et Triton dans PyTorch, illustrent cette complexité.
Dans ce contexte, un chercheur a entrepris de construire un compilateur LLM « hackable » à partir de zéro. Ce nouvel outil est conçu pour transformer de petits modèles, comme TinyLlama ou Qwen2.5-7B, en une séquence de noyaux CUDA optimisés, en passant par six représentations intermédiaires (IR).
Les premiers résultats sur une carte RTX 5090 montrent que les noyaux FP32 générés fonctionnent en moyenne géométrique 1,11 fois plus vite que PyTorch en mode eager et 1,20 fois plus vite que torch.compile. Le compilateur atteint une parité complète sur des blocs pour TinyLlama-128 et Qwen2.5-7B.
Cette approche pourrait ouvrir la voie à des optimisations plus poussées et à une meilleure compréhension des processus de compilation pour l’IA.
Source : Reddit r/MachineLearning