Voilà un sujet sur l'intelligence artificielle qui sort un peu de l'ordinaire et pourrait donc vous intéresser ou tout au moins vous intriguer. L'entreprise sud-coréenne Krafton, en partenariat avec NVIDIA, vient d'officialiser Orak, un benchmark pour IA très particulier. Destiné aux LLM (Grand modèles de langage), ce benchmark teste les capacités des IA à progresser dans un total de 12 jeux différents, dont voici la liste :
Action | Aventure | RPG | Simulation | Stratégie | Puzzle |
---|---|---|---|---|---|
Street Fighter III | Ace Attorney | Pokemon Rouge | Minecraft | Starcraft II | Baba Is You |
Super Mario | Her Story | Darkest Dungeon | Stardew Valley | Slay the Spire | 2048 |
Si vous souhaitez tout savoir sur Orak, un rapport de 56 pages a été publié par Krafton pour détailler son benchmark. Si vous ne vous sentez pas le courage ou l'envie de le consulter et vous contenterez bien d'un petit résumé, Krafton y explique que, globalement, les IA propriétaires s'en sortent assez nettement mieux dans Orak que les IA libres (open source). Gemini-2.5-pro de Google est actuellement l'IA qui s'en sort le mieux, devant GPT-4o et o3-mini, qui complètent le podium. Claude 3.7 et DeepSeek R1 s'en sortent convenablement, mais à petite distance tout de même du top 3 en matière de scores.
Un autre classement est également proposé, baptisé "Battle Arena". En effet, deux des douze jeux proposent un mode deux joueurs : Street Fighter III et Starcraft II. L'occasion de mettre les IA face à face pour voir qui l'emporte. Le classement ne comporte pas encore beaucoup d'IA en ce 16 juin, mais parmi celles présentes c'est Minitron-8B-it qui s'en est le mieux sorti sur Street Fighter III, tandis que c'est Claude 3.7 qui l'emporte sur Starcraft II. (Source : @harukaze5719)
Vous pouvez consulter le classement d'Orak sur cette page, il sera mis à jour au fur et à mesure
Par ici pour le GitHub Krafton Orak
