Alibaba a dévoilé Qwen-Image-2.0, un modèle de génération d’images qui double la compression et réduit drastiquement le nombre d’étapes de génération.
Selon un rapport technique, Qwen-Image-2.0 compresse les images deux fois plus agressivement que la plupart de ses concurrents. Une version optimisée du modèle ne nécessite que quatre étapes de débruitage, contre quarante habituellement, accélérant significativement le processus de création.
Le modèle intègre un transformeur remanié pour stabiliser l’entraînement, améliorant ainsi sa robustesse. Il dispose également d’un module dédié qui enrichit automatiquement les entrées utilisateur courtes en invites détaillées, facilitant la génération d’images complexes.
Ces avancées techniques positionnent Qwen-Image-2.0 comme une solution performante. Sur LMArena, une plateforme d’évaluation comparative aveugle, le modèle d’Alibaba se classe actuellement à la 9ème position. Cela positionne Qwen-Image-2.0 comme un acteur notable dans l’évolution des modèles de génération d’images.
Source : The Decoder