Orak Liste Jeux

Un benchmark testant les capacités des IA sur 12 jeux différents ? C'est ce que promet Orak, mis au point par Krafton en partenariat avec NVIDIA.

Voilà un sujet sur l'intelligence artificielle qui sort un peu de l'ordinaire et pourrait donc vous intéresser ou tout au moins vous intriguer. L'entreprise sud-coréenne Krafton, en partenariat avec NVIDIA, vient d'officialiser Orak, un benchmark pour IA très particulier. Destiné aux LLM (Grand modèles de langage), ce benchmark teste les capacités des IA à progresser dans un total de 12 jeux différents, dont voici la liste :

Action Aventure RPG Simulation Stratégie Puzzle
Street Fighter III Ace Attorney Pokemon Rouge Minecraft Starcraft II Baba Is You
Super Mario Her Story Darkest Dungeon Stardew Valley Slay the Spire 2048

Si vous souhaitez tout savoir sur Orak, un rapport de 56 pages a été publié par Krafton pour détailler son benchmark. Si vous ne vous sentez pas le courage ou l'envie de le consulter et vous contenterez bien d'un petit résumé, Krafton y explique que, globalement, les IA propriétaires s'en sortent assez nettement mieux dans Orak que les IA libres (open source). Gemini-2.5-pro de Google est actuellement l'IA qui s'en sort le mieux, devant GPT-4o et o3-mini, qui complètent le podium. Claude 3.7 et DeepSeek R1 s'en sortent convenablement, mais à petite distance tout de même du top 3 en matière de scores.

Un autre classement est également proposé, baptisé "Battle Arena". En effet, deux des douze jeux proposent un mode deux joueurs : Street Fighter III et Starcraft II. L'occasion de mettre les IA face à face pour voir qui l'emporte. Le classement ne comporte pas encore beaucoup d'IA en ce 16 juin, mais parmi celles présentes c'est Minitron-8B-it qui s'en est le mieux sorti sur Street Fighter III, tandis que c'est Claude 3.7 qui l'emporte sur Starcraft II. (Source : @harukaze5719)

Vous pouvez consulter le classement d'Orak sur cette page, il sera mis à jour au fur et à mesure

Par ici pour le GitHub Krafton Orak

David

Aucun commentaire

Laissez votre commentaire

En réponse à Some User