Des chercheurs de l’Université Renmin et de ByteDance ont dévoilé iLLaDA, un modèle de langage de 8 milliards de paramètres qui génère du texte selon une approche de diffusion, se distinguant ainsi de modèles comme ChatGPT.
Ce modèle, d’une taille de 8 milliards de paramètres, adopte une méthode de génération textuelle innovante basée sur la diffusion. Cette architecture lui permet d’égaler les performances de Qwen2.5 dans sa version de base, marquant une avancée notable dans la recherche sur les grands modèles de langage.
Cependant, les tests révèlent qu’après une phase de réglage fin (fine-tuning), iLLaDA accuse un léger retard par rapport à Qwen2.5. Cette observation met en lumière les défis et les compromis inhérents aux différentes approches architecturales explorées dans le domaine de l’intelligence artificielle générative.
L’exploration continue de ces modèles de langage par diffusion pourrait enrichir l’écosystème de l’IA avec des capacités et des applications inédites.
Source : The Decoder