Google DeepMind a présenté Gemma 4 12B, un nouveau modèle multimodal conçu pour traiter simultanément du texte et des images sans nécessiter d’encodeur distinct pour chaque modalité.
Ce modèle, basé sur l’architecture Transformer, vise à simplifier le traitement des données multimodales en unifiant la compréhension des informations textuelles et visuelles au sein d’un seul réseau. L’objectif est d’améliorer l’efficacité et la performance des applications nécessitant une interprétation combinée de ces deux types de données.
Gemma 4 12B s’inscrit dans la lignée des recherches visant à créer des modèles d’IA plus polyvalents et performants, capables de comprendre et de générer du contenu à partir de diverses sources d’information. Son architecture unifiée pourrait ouvrir la voie à de nouvelles applications dans des domaines tels que la génération de légendes d’images, la réponse à des questions visuelles ou encore la création de contenu multimédia.
Source : DeepMind Blog