Microsoft Lens : des légendes détaillées pour des générateurs d’images plus efficaces

Microsoft Research démontre qu’une qualité accrue des descriptions textuelles peut surpasser la taille brute des modèles pour entraîner des générateurs d’images performants.

Leur modèle, baptisé Lens, ne compte que 3,8 milliards de paramètres, mais égale des concurrents bien plus imposants sur les bancs d’essai. Le secret réside dans l’utilisation de 800 millions de légendes d’images très détaillées, générées par GPT-4, plutôt que les simples textes alternatifs souvent vagues trouvés sur le web.

Cette approche permet d’obtenir des résultats comparables avec un coût d’entraînement réduit. Les chercheurs ont rendu le code et les poids du modèle disponibles sous licence open-source, ouvrant la voie à de nouvelles explorations dans la génération d’images.

Source : The Decoder

Catégories : Brèves IA
← Article précédentLes démos d'IA d'Apple à la WWDC 2026 plus réalistes après un accord de 250 M$Article suivant →Difficultés financières et licenciements chez Tools for Humanity, la société de Sam Altman

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES