Un nouveau tokeniseur nommé quicktok, développé en C++, promet d’accélérer significativement les processus de tokenisation pour les modèles d’intelligence artificielle. Ce projet, présenté sur Reddit, se distingue par sa rapidité et sa compatibilité totale avec tiktoken, le tokeniseur couramment utilisé par OpenAI.
quicktok revendique une vitesse d’encodage 2 à 3,6 fois supérieure à celle de bpe-openai, considéré comme l’alternative la plus rapide jusqu’à présent, et 4 à 11 fois plus rapide que tiktoken lui-même. Les identifiants de tokens générés sont garantis identiques en octets à ceux de tiktoken, assurant une interopérabilité sans faille. Il intègre les schémas de tokenisation populaires tels que cl100k, o200k, GPT-OSS, Llama-3 et Qwen2.5/3.
L’approche technique de quicktok repose sur le même algorithme de BPE par rétroaction exacte que bpe-openai, mais bénéficie d’une ingénierie avancée des structures de données pour réduire drastiquement les temps de traitement. Cette innovation pourrait optimiser les chaînes de traitement des modèles de langage, de la préparation des données à l’inférence, offrant un avantage crucial pour les flux de travail impliquant de grands volumes de texte.
Source : Reddit r/MachineLearning