Nvidia Logo 3d

L'IA générative pour les avatars animé, c'est désormais possible librement grâce à NVIDIA !

Alors que les annonces de technologies ouvertes sont habituellement davantage centrées sur les rouges comme l’illustre à merveille le FSR, voilà que NVIDIA vient d’annoncer la mise sous licence ouverte (MIT très exactement) de sa solution Audio2Face. Pourtant, les verts sont coutumiers des bibliothèques accessibles à tous, par exemple avec TensorRT-LLM et de nombreuses primitives d’accélération CUDA, des solutions davantage centrées sur les professionnels et, surtout, reposant sur l’écosystème dédié des verts.

Voilà un rappel vidéo de ce que fait la technolgie !

Cette fois-ci, nous espérons ressentir les effets de cette ouverture jusqu'aux jeux vidéos finaux. En effet, Audio2Face est un modèle classifié dans la catégorie des IA génératives, c'est-à-dire produisant un résultat (ici une animation) à partir d'une consigne (ici la piste audio), que vous pouvez tester par vous-même ici. Marketté à de nombreuses reprises, la technologie permet d'améliorer le réalisme des PNJ et des avatars en utilisant les technologies de machines learning. Plus précisément, le système adapte les mouvements du visage au discours débité par le personnage - en lieu et place d'un nombre fixe de réactions de références acquises par performance capture sur des acteurs. Un flot de travail plus court, ce qui permet de gagner du temps (et donc de l'argent) lors du développement de jeux vidéos, citons par exemple Chernobylite 2: Exclusion Zone, qui a eu extensivement recourt à la technologie.

En interne, un premier réseau, nommé Audio2Emotion, permet d'inférer à partir d'un flux sonore le ton et le niveau émotionnel, son résultat étant envoyé (toujours avec la piste audio) au "vrai" réseau Audio2Face. Pour le moment, ce couple s'intègre au moyen de plug-in dans Autodesk Maya et Unreal Engine 5, mais le caméléon libère également le SDK ainsi que des données d'exemples et diverses saveurs des modèles afin de permettre aux développeurs d'adapter la solution selon leurs besoins - et ainsi participer à l'extension de la chose. Hé oui, les sources ouvertes, c'est un bon moyen d’agrandir sa communauté ! Pour le moment, NVIDIA communique sur des intégrations chez Convai, Codemasters, GSC Games World, Inworld AI, NetEase, Reallusion, Perfect World Games, Streamlabs, et UneeQ Digital Humans ; reste à voir si d'autres comptent s'y mettre, et si le projet compte évoluer à l'avenir, ou si son ouverture marque la stabilisation des fonctionnalités pour tous.

Par ici pour les sources du SDK !

Double Doc


  • Cela gère les traductions multilangues? Parce que  si c'est pour se retrouver avec les mouvements de bouches et les pauses de la piste anglaise sur des discours prononcé en français, on risque de remarquer un truc qui cloche.

    Voir plus
    • Ca nous changera pas grand chose de l'existant lol.

      Mais bon, si ce n'est pas encore dispo ça viendra en son temps quand le modèle sera peaufiné.

      Voir plus

2 commentaires

Laissez votre commentaire

Créez un compte pour personaliser votre avatar, débloquer davantage d'options de mise en forme et être notifié par mail en cas de réponse.
En réponse à Some User