Jasper AI a récemment mis à disposition MONET, un vaste jeu de données image-texte de 104,9 millions d’échantillons de haute qualité, sous licence Apache 2.0.
Ce nouveau corpus, accessible sur Hugging Face, a été méticuleusement construit à partir d’une collection initiale de 2,9 milliards d’images. Chaque entrée de MONET est enrichie de légendes détaillées et de métadonnées pertinentes, visant à fournir une base solide pour l’entraînement de modèles d’intelligence artificielle.
La publication de MONET s’accompagne d’un article scientifique expliquant sa méthodologie de création. Des outils complémentaires sont également proposés, incluant une visualisation UMAP pour explorer la distribution des données, un moteur de recherche permettant des requêtes textuelles ou visuelles, et une base de code dédiée à l’entraînement de modèles de génération texte-vers-image (T2i).
Cette initiative enrichit l’écosystème des ressources ouvertes, offrant de nouvelles perspectives pour la recherche et le développement en IA générative.
Source : Reddit r/MachineLearning