Anthropic dévoile le Model Spec Midtraining pour un alignement IA plus robuste
Anthropic a publié une nouvelle recherche, le Model Spec Midtraining (MSM), visant à résoudre le problème de la généralisation de l’alignement des IA et la « simulation d’alignement ».