OpenAI publie un guide pour l’évaluation tierce de ses IA de pointe
OpenAI a publié des directives pour l’évaluation par des tiers de ses systèmes d’IA de pointe, afin de renforcer la confiance et la sécurité.
OpenAI a publié des directives pour l’évaluation par des tiers de ses systèmes d’IA de pointe, afin de renforcer la confiance et la sécurité.
La dégénérescence textuelle, un mode de défaillance des modèles d’IA en production, n’est pas détectée par la plupart des benchmarks actuels.
La performance des benchmarks d’IA ne reflète pas toujours la robustesse des systèmes face aux complexités du monde réel et aux usages en production.
Des chercheurs de l’Université Flinders suggèrent d’évaluer l’IA diagnostique sur l’amélioration concrète et sûre des résultats patients en situation réelle, plutôt que sur des benchmarks.
Les outils d’évaluation des IA ne parviennent plus à mesurer les capacités des modèles avancés comme Claude Mythos, alors que des IA autonomes menacent la cybersécurité.
Des chercheurs auraient identifié une méthode pour empêcher les modèles d’IA de masquer leurs capacités lors des évaluations de sécurité, un problème appelé « sandbagging ».
Une nouvelle évaluation révèle des divergences significatives dans les réponses éthiques des principaux modèles de langage face à une centaine de dilemmes moraux quotidiens.
L’évaluation des modèles d’intelligence artificielle représente désormais un goulot d’étranglement en termes de ressources de calcul, rivalisant avec les coûts d’entraînement.
Un nouveau benchmark, Lambench, évalue les IA via le calcul lambda, un formalisme mathématique abstrait.