Alibaba a dévoilé Qwen3.7-Plus, un modèle d’agent multimodal qui intègre la perception visuelle, l’opération d’interface graphique (GUI) et le codage au sein d’une boucle d’agent unique.
Ce développement marque une avancée vers des agents autonomes. Lors d’une démonstration, un agent basé sur ce modèle a conçu de manière autonome une application d’apprentissage de vocabulaire. Ce processus a généré plus de 10 000 lignes de code à travers 1 000 appels d’agent, s’étalant sur une période de onze heures.
Selon les propres benchmarks de Qwen, le modèle excelle dans la compréhension des éléments à l’écran. Cependant, sa performance globale est décrite comme mitigée. Qwen3.7-Plus est une offre propriétaire, sans poids ouverts, et son prix n’est pas précisé dans le résumé fourni.
Ce type de modèle illustre les efforts continus pour doter l’intelligence artificielle de capacités d’interaction et de création plus sophistiquées dans des environnements numériques variés.
Source : The Decoder