Le laboratoire de recherche en IA Anthropic a rendu publique une « System Card » détaillant les capacités et les limites de son modèle de langage avancé, Claude Mythos, dans un document PDF.
Cette fiche technique, disponible via une source ouverte, vise à fournir une évaluation approfondie de la cybersécurité du modèle, un aspect crucial pour le déploiement sécurisé des systèmes d’intelligence artificielle dans des environnements critiques. Elle s’inscrit dans une démarche de transparence concernant les performances et les risques potentiels.
Le document aborde également des projets connexes tels que « Project Glasswing », axé sur la sécurisation des logiciels essentiels à l’ère de l’IA. L’analyse de ces éléments soulève des questions sur la gouvernance et la robustesse des futurs systèmes d’IA.
Source : Hacker News (Algolia)