Un utilisateur de Reddit a créé une version extrêmement simplifiée d’un modèle transformeur, rendant ses mécanismes internes entièrement visibles et éditables.
Dans le but d’approfondir sa compréhension des grands modèles linguistiques (LLM) au-delà de l’interface de programmation, jusqu’aux multiplications matricielles fondamentales, ce développeur a d’abord construit un transformeur complet à la main dans un tableur. Il a ensuite transposé ce « forward pass » (le processus de calcul de la sortie) sur une page web pour faciliter son partage et son exploration.
Cette implémentation est un transformeur complet, mais réduit à sa plus simple expression : une seule tête d’attention et un seul bloc. Il opère sur un vocabulaire de six mots et utilise des plongements (embeddings) tridimensionnels. La particularité est que chaque nombre du modèle tient à l’écran, et les poids sont directement éditables, offrant une transparence totale sur les calculs.
Cette initiative offre une ressource pédagogique concrète pour appréhender le fonctionnement des architectures de grands modèles linguistiques, en permettant une interaction directe avec leurs composants fondamentaux.
Source : Reddit r/MachineLearning