Une équipe d’ingénieurs en apprentissage automatique a récemment documenté les défis rencontrés lors du réglage fin et du déploiement du modèle Gemma-4 de Google. Ces difficultés mettent en lumière les complexités techniques inhérentes à l’intégration de nouveaux modèles avec des outils existants.
Le principal obstacle identifié concerne l’incompatibilité entre les couches personnalisées de Gemma-4 et la bibliothèque PEFT (Parameter-Efficient Fine-Tuning), notamment pour l’application de LoRA. Google a encapsulé des projections visuelles et audio dans une nouvelle classe ClippableLinear qui n’hérite pas de nn.Linear. Cette particularité empêche PEFT d’attacher LoRA, même pour des tâches de réglage fin basées uniquement sur le texte.
La solution trouvée par l’équipe consiste à « déballer » ces couches personnalisées après le chargement des poids du modèle, mais avant d’appeler PEFT. Un autre problème, bien que moins détaillé, concernait le SFTTrainer de TRL, qui arrêtait silencieusement l’entraînement. Ces retours d’expérience soulignent l’importance de la compatibilité des architectures logicielles dans l’écosystème de l’IA.
Ces observations fournissent des informations précieuses pour les développeurs travaillant avec Gemma-4, illustrant les ajustements nécessaires pour optimiser l’utilisation de modèles de pointe.
Source : Reddit r/MachineLearning