Concept-Vector : des plongements lexicaux plus interprétables
Concept-Vector est un nouveau cadre de conception visant à rendre les plongements lexicaux des modèles d’IA plus interprétables pour l’humain grâce à des vecteurs de concepts.
Concept-Vector est un nouveau cadre de conception visant à rendre les plongements lexicaux des modèles d’IA plus interprétables pour l’humain grâce à des vecteurs de concepts.
Anthropic a développé des auto-encodeurs en langage naturel (NLAE) pour traduire les activations internes de ses modèles Claude en texte compréhensible.