Un nouveau benchmark, le WorldReasonBench, révèle que si les générateurs de vidéos par IA produisent des images époustouflantes, ils peinent encore à raisonner sur le monde physique et logique.
Ce test évalue les modèles non pas sur la qualité visuelle, mais sur la plausibilité physique et logique des scènes générées. Il met en lumière une lacune persistante : le saut du simple générateur de pixels à un véritable modèle du monde n’a pas encore été franchi.
Seedance 2.0 de ByteDance se positionne en tête, surpassant Veo 3.1 et Sora 2. Les modèles commerciaux obtiennent des scores environ deux fois supérieurs à ceux des alternatives open source. Cependant, le raisonnement logique demeure la catégorie la plus difficile pour tous les modèles, avec une marge significative.
Ces résultats soulignent que malgré les avancées spectaculaires en rendu visuel, la capacité des IA à comprendre et simuler les lois fondamentales de notre réalité reste un défi majeur pour le développement de systèmes plus intelligents.
Source : The Decoder