Microsoft Research démontre qu’une qualité accrue des descriptions textuelles peut surpasser la taille brute des modèles pour entraîner des générateurs d’images performants.
Leur modèle, baptisé Lens, ne compte que 3,8 milliards de paramètres, mais égale des concurrents bien plus imposants sur les bancs d’essai. Le secret réside dans l’utilisation de 800 millions de légendes d’images très détaillées, générées par GPT-4, plutôt que les simples textes alternatifs souvent vagues trouvés sur le web.
Cette approche permet d’obtenir des résultats comparables avec un coût d’entraînement réduit. Les chercheurs ont rendu le code et les poids du modèle disponibles sous licence open-source, ouvrant la voie à de nouvelles explorations dans la génération d’images.
Source : The Decoder