Google DeepMind dévoile Gemma 4 12B, un modèle multimodal unifié

Google DeepMind a présenté Gemma 4 12B, un nouveau modèle multimodal conçu pour traiter simultanément du texte et des images sans nécessiter d’encodeur distinct pour chaque modalité.

Ce modèle, basé sur l’architecture Transformer, vise à simplifier le traitement des données multimodales en unifiant la compréhension des informations textuelles et visuelles au sein d’un seul réseau. L’objectif est d’améliorer l’efficacité et la performance des applications nécessitant une interprétation combinée de ces deux types de données.

Gemma 4 12B s’inscrit dans la lignée des recherches visant à créer des modèles d’IA plus polyvalents et performants, capables de comprendre et de générer du contenu à partir de diverses sources d’information. Son architecture unifiée pourrait ouvrir la voie à de nouvelles applications dans des domaines tels que la génération de légendes d’images, la réponse à des questions visuelles ou encore la création de contenu multimédia.

Source : DeepMind Blog

Catégories : Brèves IA
← Article précédentLovable dépasse les 500 M$ de revenus annualisés et un million de projets hebdomadairesArticle suivant →DeepMind renforce la robotique européenne avec des avancées en apprentissage

Restez informé de l'actualité IA

Recevez chaque semaine notre sélection des meilleures analyses sur l'intelligence artificielle.

Pas de spam. Désinscription en un clic.

Laisser un commentaire

FR EN ES