Un projet open-source récent démontre comment n’importe quel grand modèle linguistique (LLM) peut être doté de la capacité de « visionner » et de comprendre le contenu de vidéos.
Intitulé « Claude-real-video », ce projet sur GitHub propose une méthodologie pour permettre aux LLM d’analyser des informations visuelles dynamiques. L’approche consiste à extraire des images clés d’une vidéo, à les convertir en une séquence d’images encodées en base64, puis à les intégrer, avec une requête textuelle, dans une invite soumise au modèle.
Bien que l’implémentation actuelle utilise Claude 3 Opus, les créateurs soulignent que cette technique est généralisable à d’autres LLM multimodaux. Cette capacité ouvre de nouvelles perspectives pour des applications variées, telles que l’analyse vidéo détaillée, la génération de contenu basée sur des séquences visuelles, ou encore des systèmes d’IA plus interactifs.
Concrètement, un LLM pourrait ainsi répondre à des questions sur le déroulement d’une scène, résumer des événements ou identifier des objets et des actions au fil du temps. Cette avancée suggère une évolution vers des intelligences artificielles capables d’une compréhension plus riche et contextuelle du monde visuel en mouvement.
Source : Hacker News (Algolia)