Anthropic dévoile des NLAE pour interpréter les pensées de Claude
Anthropic a développé des auto-encodeurs en langage naturel (NLAE) pour traduire les activations internes de ses modèles Claude en texte compréhensible.
Anthropic a développé des auto-encodeurs en langage naturel (NLAE) pour traduire les activations internes de ses modèles Claude en texte compréhensible.