Analyse • Lunar Lake, ou le x86 plus efficient que jamais !

Un iGPU X^e2 à l’avant-goût de Battlemage

Bien qu’étant techniquement un processeur orienté mobilité, l’iGPU de Lunar Lake pourra intéresser les gamers. Non pas par sa performance — dans le meilleur des cas, la partie graphique se retrouvera limitée par le débit de la LPDDR5 et de son bus 128-bit —, mais par son architecture. En effet, cette nouvelle génération d’Intel Core Ultra fait usage de X^e version seconde génération : X^e2, qui se traduira dans quelques mois par les cartes graphiques pour PC fixe Battlemage. Voyons ce que le bébé a dans le ventre !

Ô, Battlemage !

Sans surprise, Intel s'est basé sur sa première génération de GPU pour construire sa seconde, et reprend ainsi les principales fondations organisationnelles. Cependant, tout le pipeline de rendu a été revu afin d'offrir des gains substantiels tout au long de son exécution. Des efforts que la firme condense en progression évaluée sur des microbenchmarks, voyez donc :

Le but de tout cela ? Non seulement augmenter la performance et l’efficacité énergétique, mais également modifier ici et là le silicium pour passer de « Compatible DirectX » à « similaire aux autres architectures GPU pour DirectX ». Une nuance loin d’être anodine, puisque l’API est optimisée pour les habitués du genre (AMD et NVIDIA, pour ne pas les citer), une chose qu’Intel avait sous-estimée et qui explique en partie les divers soucis de pilotes et de performances rencontrés par la génération Alchemist. Notez en outre que, cette fois-ci, il n'y a plus qu'une seule microarchitecture pour X^e2 : pas de X^e2-HPC ou X^e2-HPG, X^e2 tout court épicetout !

En interne, les cœurs X^e gardent une structure connue : des unités XVE vectorielles 512-bot et des unités XMX matricielles 2048-bit à raison de 8 chacune. De quoi conserver la puissance de calcul de la génération précédente tout en réduisant le contrôle, Alchemist étant en 16 x 256-bit en vectoriel et 16 x 1024-bit en matriciel. Au niveau des performances en fonction de la taille des données, les choses sont loin d'être simples, Intel nous fourni ainsi un tableau récapitulatif :

Au total, 8 de ces cœurs sont intégrés dans l’iGPU de Lunar Lake, mais l’architecture est annoncée comme bien plus scalable… rendez-vous dans quelques mois pour plus de détail, au moment du lancement des cartes graphiques dédiées ?

Si les unités matricielles permettent de supporter plusieurs types de données, du côté des unités vectorielles, c’est encore plus la bamba ! En effet, nous ne sommes pas loin d’un mini-CPU opérant sur des précisions allant de l’Int2 (une sacrée précision !) au FP64. En revanche, la taille des vecteurs rend le mini-CPU bien inutile dans la pratique pour autre chose que du machine learning, de la simulation physique ou du rendu 3D : bienvenu dans le monde merveilleux des GPU !

Les Render Slices, utilisées pour le rendu 3D (non, sans blagues) sont composées de 4 cœurs Xe (2 render slices sont donc intégrées sur l'iGPU Arrow Lake) et subissent également de nombreux changements afin d'améliorer leur débit. Augmentation de la bande passage des vertex, amélioration des shaders, du sampling, augmentation du cache permettant de se souvenir de la face la plus proche (HiZ culling), ... la liste est longue, et justifie amplement les gains annoncés par la firme.

Enfin, le Ray Tracing n'est pas en reste avec un nouvelle unité chargée d'accélérer le calcul des intersections des rayons (BVH, pour Bounded Volume Hierarchy) en se chargeant des trois primitives de base de l’algorithme : traversée de la hiérarchie, intersection avec les volumes, puis intersection avec les triangles. Du classique dans la théorie, reste à voir les performances en pratique !

Le Display Engine

Avoir de la puissance graphique, c’est bien, avoir de la maîtrise graphique, c’est également pratique ! Comprenez qu’avec la montée des nouvelles technologies, Lunar Lake aurait fait pâle figure en mettant une croix sur certains standards : force est de constater que tel n’est pas le cas. Avec trois pipelines de sortie, les Core Ultra 200V supportent 3 écrans en 4k 60 Hz, et jusqu’à 8K60 Hz HDR individuellement. Pour les amateurs de hautes fréquences, le 1080p et le 1440p sont supportés sauce 360 Hz, et ; pour transporter autant de bits, les connexions HDMI 2.1, DisplayPort 2.1 et eDP 1.5 (pour les dalles des laptops) sont nativement compatibles.

Si le Display Engine était à l’origine un simple convertisseur hachant les pixels en un signal compréhensible par l’écran, son architecture s’est complexifiée en intégrant désormais un mini-pipeline pour convertir les pixels (une question d’espace colorimétrique) ou les compresser (merci le DSC — Display Stream Compression), réduire la consommation lors des optimisations telles que le panel replay (rafraîchissement par l’écran lorsque l’image reste fixe) ou encore adapter le contraste dynamiquement selon un capteur de luminosité.

Lunar Lake Display Engine Pixel Pipeline

Si jamais vous trouviez que 3 écrans ne sont pas suffisants, Lunar Lake en supporte en fait 4 du fait du Stream Assembly : la capacité de faire passer plusieurs flux dans un même câble, typiquement en utilisant du DisplayPort en daisy chain. Voilà qui devrait largement suffire pour la plupart des utilisateurs !

Grâce aux progrès successifs de l’eDP (le Self Panel Refresh datant de plus de 10 ans !), le SoC peut faire toujours plus d’économie d’énergie !

Le Media Engine

Bien souvent confondu avec le GPU, le Media Engine est implémenté (la plupart du temps dans des GPU, il est vrai) par une partie de silicium autonome dédié à l’encodage matériel de flux vidéo - NVEnc chez NVIDIA par exemple. Sur Lunar Lake, Intel continue de pousser les normes les plus récentes avec le support de l’AV1, mais surtout de h.266, également nommé VVC permettant de réduire la taille des fichiers de 10 % sans dégradation visuelle par rapport à l’AV1, tout en supportant l’adaptation dynamique de définition. Comprenez que le codec permet de réduire la définition d’une vidéo sans discontinuités si votre connexion venait à faiblir : chouette ! Citons également la présence d’un mode « SCC » ou « Screen Content Coding » permettant d’améliorer la lisibilité du texte en partage d’écran. Au total, Lunar Lake supporte l’AVC, le VP9, l’h.265 (HEVC), l’AV1 et l’h.266 (VVC) : de quoi assurer la longévité de la plateforme en décodage vidéo ! Enfin, le Media Engine peut compter sur le System Cache de 8 mégots pour stocker une partie des données qu'il requiert et ainsi économiser de la bande passante RAM : de quoi optimiser les ressources, par exemple lors de sessions de jeu et de diffusion sur la même machine.

SI le GPU peut faire des tâches d’IA grâce à ses XMX à raison de 67 TOPS, il ne les effectue pas de la manière la plus efficiente possible du fait de sa complexité (présence d’unités spécialisées pour le rendu 3D par exemple). Or, pour pouvoir effectuer les tâches d’IA du quotidien (ne rigolez pas !), il faut moins consommer ; ce qui ne peut passer que par un coprocesseur d’IA dédié : le NPU, que nous détaillons page suivante.

lulu-nico

4 Juin 2024 - 09:13

Tout cela est très intéressant

Ça peut paraître bizarre qu intel produit un cpu pas avec ça gravure

Le n3b est le die le plus efficient et le plus dense actuellement en plus intel est mauvais en transistors gpu ( haute densité ) voulant faire ultra compact et efficient c'est une bonne idée

A l'inverse le die soc en n6 me surprends

Pas besoin du n3b pour ce die il est ultra cher pour un gain très réduit ( les transistors hors ceux pour la logique progresse très peu voir quasiment pas vs le n5 )

Le n6 est "vieux" maintenant alors oui il est moins cher mais j'aurais plus vu n5 ou un de ses dérivé piur gagner en taille et en consommation
lulu-nico

4 Juin 2024 - 10:40

Bon après lecture approfondie j'ai l'impression que intel est revenue en arrière sur un point

Meteor lake avait explosé en mcm

La on revient comme avant Meteor lake le compute die intègre se qu'avait le die gen 13/14 et le second due c'est le chipset qui était côté

C'est la même chose mais emballé en 2.5d avec une nouvelle gravure
Julien G.

4 Juin 2024 - 12:27

Le SMT s’avère surtout être une faille de sécurité perpétuelle, entre les fix et les patchs pas sur que ce soit vraiment une perte de performances de le virer 😅
skanpaul

4 Juin 2024 - 17:42

Intel avec son lunar lake, qualcomm avec son xlite, amd machin truc et nvidia cpu machin truc... windows qui va devoir jongler avec les 4 ... Et tous les logiciels qui ne sont pas en natif et sans oublier tous les dell, asus et autre qui vont faire des variantes matérielles de leur ordinateur....

Quelle horreur la complexité des variantes et la fragmentation infinie que ça va engendrer et les bugs que Windows ne sait pas gérer...

Bonne chance pour que ça fonctionne sans accroche.... Faudrait songer à utiliser apple

Passez chez Apple, ils ont peu de variantes matérielle, ils créent leur propre puce, Ils font leur propre OS, tous les logicielles suivent Apple.
- lulu-nico
  
  4 Juin 2024 - 19:08
  
  Amd et intel c'est du x86 donc pas de soucis et arm il y a emulateur apprement aussi performant que rosetta 2
  
  Donc ça devrait aller
- Julien G.
  
  5 Juin 2024 - 08:35
  
  Apple ces gens qui décident arbitrairement quand ton ordinateur est obsolète en arrêtant de le mettre a jour, non merci 😬
Celanenousregardepas

4 Juin 2024 - 22:25

Article beaucoup trop "technique" pour moi et mes maigres connaissances néanmoins je suis sûr que cela a fait plaisir à d'autres lecteurs qui ont du apprécier votre expertise et c'est bien là l'essentiel.

J'ai eu l'impression de relire certains articles de HFR !
- lulu-nico
  
  5 Juin 2024 - 09:44
  
  C'était le bon temps hfr
  
  J'avoue c'est complexe mais c'est aussi complet du coup
  
  Après il y a les slides et les graphiques d intel plus simple à comprendre
- Nicolas D.
  
  5 Juin 2024 - 20:49
  
  Je ne cache pas que HFR ça a été notre référence et que c'est le type de contenu que nous visons. Le souci c'est qu'il faut vulgariser 20 ans de progrès hardware avant de lister les changements de la nouvelle génération ; dur dur pour quelqu'un qui débarque ! Cependant, avec un format récurrent expliquant certains mécanismes CPU peut etre une bonne idée pour pouvoir les référencer à divers endroits du dossier :-)
  - lulu-nico
    
    6 Juin 2024 - 19:53
    
    Moi jai compris les autres ..... 🤣

Analyse • Lunar Lake, ou le x86 plus efficient que jamais !