Une DCGAN (Deep Convolutional Generative Adversarial Network) de 12,6 millions de paramètres a été exécutée avec succès sur un microcontrôleur RISC-V CH32H417, générant des images de visages de chats en 64×64 pixels en 26 secondes.
Cette prouesse technique, partagée sur Reddit, est notable car elle a été réalisée sur un nouveau microcontrôleur RISC-V, sans l’aide de frameworks optimisés comme TFLite ou CMSIS NN, ni de mémoire externe dédiée. L’inférence a été entièrement codée en C pur, produisant des résultats bit-identiques à ceux des implémentations de référence PyTorch.
Le modèle utilise une quantification int8 par canal pour ses 12,6 millions de paramètres. Pour gérer les contraintes de mémoire (512 Ko de SRAM), les activations intermédiaires sont stockées en DTCM, tandis que les poids des couches sont chargés en continu depuis une carte SD via un mécanisme de double tampon. Ce système permet de charger la couche suivante pendant que la couche actuelle est en cours de calcul.
Cette démonstration ouvre des perspectives pour l’intégration de modèles génératifs sophistiqués dans des systèmes embarqués à faibles ressources.
Source : Reddit r/MachineLearning