Un développeur a réussi à faire fonctionner le modèle de langage Gemma 4 de Google de manière fluide et utilisable directement sur un téléphone Android, offrant un assistant local autonome.
L’objectif était de créer un assistant IA véritablement local, et non une simple démonstration. Les tentatives initiales avec des outils comme llama.cpp pour exécuter Gemma 4 sur Termux se sont heurtées à des performances médiocres (2-3 jetons par seconde) et une surchauffe significative de l’appareil.
Le développeur a opté pour la configuration LiteRT de Google, permettant à Gemma 4 de fonctionner sans accroc. Le modèle a ensuite été intégré à une pile d’agents également exécutée dans Termux.
Cette configuration permet au téléphone Android d’exécuter le grand modèle de langage (LLM) localement, d’automatiser ses propres applications via ADB (Android Debug Bridge) et de rester entièrement hors ligne si désiré.
Cette réalisation ouvre la voie à des assistants personnels intelligents entièrement embarqués, offrant une autonomie et une confidentialité accrues directement depuis un appareil mobile.
Source : Reddit r/artificial