Anthropic affirme que son modèle d’intelligence artificielle, Claude, peut rivaliser avec des experts humains dans la résolution de problèmes complexes en bioinformatique, selon les résultats d’un nouveau banc d’essai.
L’entreprise a développé BioMysteryBench, une référence spécifiquement conçue pour évaluer la capacité de Claude à aborder des défis concrets et nuancés de ce domaine scientifique. L’objectif affiché est de démontrer que l’IA peut atteindre un niveau de compétence comparable à celui d’un spécialiste humain.
Les premières évaluations menées avec BioMysteryBench révèlent des résultats prometteurs, suggérant une performance élevée du modèle Claude. Néanmoins, Anthropic insiste sur l’existence de réserves importantes associées à ces conclusions, invitant à une interprétation prudente des capacités de l’IA.
Cette démarche souligne le potentiel croissant des grands modèles de langage pour des applications scientifiques hautement spécialisées. Elle ouvre des perspectives sur l’intégration de l’IA comme outil d’assistance à la recherche en bioinformatique, tout en rappelant l’importance d’une validation continue des méthodologies d’évaluation.
Source : The Decoder