Une méthode pratique a été détaillée pour transcrire des fichiers audio sur macOS en utilisant le modèle Gemma 4 E2B de Google avec les frameworks MLX et mlx-vlm. Cette approche permet aux développeurs de tirer parti des capacités d’intelligence artificielle directement sur leur système d’exploitation Apple.
La procédure, partagée sur le blog de Simon Willison suite à une suggestion de Rahim Nathwani, décrit une « recette uv run ». Elle implique l’utilisation du modèle Gemma 4 E2B, d’une taille de 10,28 Go, en conjonction avec MLX, le framework d’apprentissage automatique d’Apple optimisé pour ses puces, et mlx-vlm. Le processus a été démontré avec succès pour transcrire un fichier audio .wav de 14 secondes.
Cette technique offre une voie directe pour l’intégration de fonctionnalités de transcription audio avancées, permettant aux utilisateurs de macOS d’exécuter des modèles d’IA performants localement. Elle ouvre des perspectives pour l’intégration de capacités de transcription audio avancées directement sur les systèmes macOS.
Source : Simon Willison Blog