Geforce 40 Super Series Family Kv 3840x2160

Spécifications

Avant d'aborder les spécifications des différentes cartes lancées, un mot rapide sur les GPU et procédés de fabrication associés. Commençons par le cas le plus simple, à savoir Intel qui se contente pour l'heure de 2 GPU : l'ACM-G10 pour les solutions moyen de gamme et performance (ARC A770/750 et théoriquement A5xx que nous n'avons jamais vues) et l'ACM-G11 pour l'entrée de gamme (ARC A3xx). Intel est un fondeur, mais plutôt que de faire appel à ses propres capacités de production, il sous-traite la gravure de ces 2 puces à TSMC via son procédé de fabrication N6, une optimisation du nœud 7 nm. Clairement dépassé en termes de densité ou de performance par le 5 nm (et maintenant 3 nm) du géant taïwanais des semiconducteurs, ce procédé de fabrication à l'avantage d'être bien moins cher. ACM-G10 est une puce plutôt conséquente, avec un peu plus de 400 mm² de surface et pas moins de 21,7 milliards de transistors. Son petit frère se contente de 157 mm² pour 7 milliards de transistors.

NVIDIA de son côté a fait un choix totalement différent, en basculant l'intégralité de sa gamme sur le 4N de TSMC, une déclinaison "personnalisée" du très performant 5 nm. Pas moins de 5 GPU différents ont été conçus, allant d'AD102 intégrant plus de 76 milliards de transistors sur une superficie de 608 mm² et animant la RTX 4090, au petit AD107 se contentant de 159 mm² pour presque 19 milliards et affecté cette fois à la RTX 4060. Entre ces 2 extrêmes, se trouvent les puces AD103 (RTX 4080), AD104 (RTX 4070 Ti / RTX 4070 / RTX 4070 SUPER) et AD106 (RTX 4060 Ti) par ordre décroissant de superficie et complexité. Ces 5 références monopolisent le haut du classement en matière de densité de transistors par mm², multipliant pratiquement par trois cette valeur en comparaison du précédent N8 de Samsung utilisé par la génération Ampere (RTX 30). Il existe donc une différence très conséquente entre ces 2 nœuds de gravure, et ce contrairement à ce que laisseraient penser leurs nomenclatures commerciales respectives. Le N8 est en fait une optimisation du node 10nm, NVIDIA "enjambant" donc le 7 nm pour passer directement au 5 nm, soit un saut de 2 générations.

AMD a lui opté pour un "en même temps" au moyen de chiplets, une stratégie que ne renierait pas un homme politique français, ayant été élu à deux reprises à la magistrature suprême. Le N5 de TSMC est donc dévolu aux GCD, alors que les MCD doivent de leur côté se contenter du N6, tout comme Navi 33. Ce dernier, purement monolithique, mesure 204 mm² pour 13,3 milliards de transistors et se charge d'animer la RX 7600. À l'autre bout de la gamme, les 6 MCD plus le GCD d'un Navi 31 complet occupent une superficie totale de presque 530 mm², pour 57,7 milliards de transistors. La densité est donc légèrement moindre que sur les puces intégralement en 4N du caméléon, mais finalement pas si éloignée malgré le mix des nœuds de gravure. Cela tendrait à corroborer l'assertion d'AMD quant aux faibles gains (en densité au moins) à attendre d'une gravure plus fine pour certains éléments constitutifs d'un GPU. Et le Navi 32 des RX 7700 XT et 7800 XT ? Il couple un GCD de 200 mm² gravé en 5 nm, à 4 MCD gravés en 6 nm par TSMC. La partie logique étant fortement réduite sur ce nouveau GCD, la densité va finalement se positionner entre celle de Navi 33 et Navi 31.

GPU
Process
Nombre de transistors Superficie die Densité (Millions de transistors par mm²)
AD102 4N TSMC 76,3 milliards 608,5 mm² 125,4
AD106 4N TSMC 22,9 milliards 187,8 mm² 121,9
AD104 4N TSMC 35,8 milliards 294,5 mm² 121,6
AD103 4N TSMC 45,9 milliards 378,6 mm² 121,2
AD107 4N TSMC 18,9 milliards 158,7 mm² 119,1
Navi 31 N5 + N6 TSMC 57,7 milliards 529,5 mm² 109
Navi 32 N5 + N6 TSMC 28,1 milliards 350 mm² 80,3
GA100 7N TSMC 54.2 milliards 826 mm² 65,6
Navi 33 N6 TSMC 13,3 milliards 204 mm² 65,2
ACM-G10 N6 TSMC 21,7 milliards 406 mm² 53,4
Navi 21 N7P TSMC 26,8 milliards 520 mm² 51,6
Navi 22 N7P TSMC 17,2 milliards 335 mm² 51,3
Navi 24 N6 TSMC 5,4 milliards 107 mm² 50,5
Navi 23 N7P TSMC 11,1 milliards 237 mm² 46,8
ACM-G11 N6 TSMC 7,2 milliards 157 mm² 45,9
GA102 8N Samsung 28,3 milliards 628,4 mm² 45
GA104 8N Samsung 17,4 milliards 392 mm² 44,4
GA106 8N Samsung 12 milliards 276 mm² 43,5
Navi 10 N7P TSMC 10,3 milliards 251 mm² 41
Vega 20 N7FF TSMC 13.2 milliards 331 mm² 39,9
GP102 16FFC TSMC 12 milliards 471 mm² 25,5
Vega 10 14LPP GF 12.5 milliards 495 mm² 25,3
GP100 16FFC TSMC 15,3 milliards 610 mm² 25,1
TU104 12FFC TSMC 13,6 milliards 545 mm² 25
TU102 12FFC TSMC 18,6 milliards 754 mm² 24,7
TU106 12FFC TSMC 10,8 milliards 445 mm² 24,3

Détaillons à présent les caractéristiques des cartes employant ces GPU en comparaison d’un certain nombre de cartes des segments performance, haut de gamme, et enthusiast, des générations actuelle et précédentes.

Cartes GPU Fréq. Boost GPU (MHz) Fréq. Mémoire (MHz)

SP
/
CC

ALU FP32 ROP VRAM (Go) Bus mem. (bits) Calcul SP (Tflops) Bande Passante mémoire (Go/s) TGP (W)
RX Vega56 Vega 10 1 471 800 3 584 3 584 64 8 2 048 10,5 410 210
RX Vega64 Vega 10 1 546 946 4 096 4 096 64 8 2 048 12,7 484 295
Radeon VII Vega 20 1 750 1 000 3 840 3 840 64 16 4 096 13,4 1 024 300
RX 5700 Navi 10 1 725 1 750 2 304 2 304 64 8 256 7,9 448 180
RX 5700 XT Navi 10 1 905 1 750 2 560 2 560 64 8 256 9,8 448 225
RX 6700 Navi 22 2 174 1 988 2 304 2 304 64 10 160 10 318 175
RX 6700 XT Navi 22 2 424 1 988 2 560 2 560 64 12 192 12,4 382 230
RX 6750 XT Navi 22 2 495 2 238 2 560 2 560 64 12 192 12,8 430 250
RX 6800 Navi 21 1 815 1 988 3 840 3 840 96 16 256 13,9 509 250
RX 6800 XT Navi 21 2 015 1 988 4 608 4 608 128 16 256 18,6 509 300
RX 6900 XT Navi 21 2 015 1 988 5 120 5 120 128 16 256 20,6 509 300
RX 6950 XT Navi 21 2 100 2 238 5 120 5 120 128 16 256 21,5 573 335
RX 7700 XT Navi 32 2 544 2 238 3 456 6 912 96 12 192 35,2 430 245
RX 7800 XT Navi 32 2 430 2 425 3 840 7 680 96 16 256 37,3 621 263
RX 7900 GRE Navi 31 2 245 2 238 5 120 10 240 192 16 256 46,0 573 260
RX 7900 XT Navi 31 2 400 2 487 5 376 10 752 192 20 320 51,6 796 315
RX 7900 XTX Navi 31 2 500 2 487 6 144 12 288 192 24 384 61,4 955 355
ARC A750 ACM-G10 2 400 2 000 3 584 3 584 112 8 256 17,2 512 225
ARC A770 ACM-G10 2 400 2 000 / 2 188 4 096 4 096 128 8 / 16 256 19,7 512 / 560 225
GTX 1070 GP104 1 683 2 002 1 920 1 920 64 8 256 6,5 256 150
GTX 1070 Ti GP104 1 683 2 002 2 432 2 432 64 8 256 8,2 256 180
GTX 1080 GP104 1 733 1 251 2 560 2 560 64 8 256 8,9 320 180
GTX 1080 Ti GP102 1 582 1 376 3 584 3 584 88 11 352 11,3 484 250
RTX 2070 TU106 1 620 1 750 2 304 2 304 64 8 256 7,5 448 175
RTX 2070 SUPER TU104 1 770 1 750 2 560 2 560 64 8 256 9,1 448 215
RTX 2080 TU104 1 710 1 750 2 944 2 944 64 8 256 10,1 448 215
RTX 2080 SUPER TU104 1 815 1 938 3 072 3 072 64 8 256 11,2 496 250
RTX 2080 Ti TU102 1 545 1 750 4 352 4 352 88 11 352 13,5 616 250
RTX 3070 GA104 1 725 1 750 2 944 5 888 96 8 256 20,3 448 220
RTX 3070 Ti GA104 1 770 1 188 3 077 6 144 96 8 256 21,7 608 290
RTX 3080 GA102 1 710 1 188 4 352 8 704 96 10 320 29,8 760 320
RTX 3080 12 Go GA102 1 710 1 188 4 480 8 960 96 12 384 30,6 912 350
RTX 3080 Ti GA102 1 665 1 188 5 120 10 240 112 12 384 34,1 912 350
RTX 3090 GA102 1 695 1 219 5 248 10 496 112 24 384 35,6 936 350
RTX 3090 Ti GA102 1 860 1 313 5 376 10 752 112 24 384 40 1 008 450
RTX 4070 AD104 2 475 1 313 2 944 5 888 64 12 192 29,1 504 200
RTX 4070 SUPER AD104 2 475 1 313 3 584 7 168 80 12 192 35,5 504 220
RTX 4070 Ti AD104 2 610 1 313 3 840 7 680 80 12 192 40,1 504 285
RTX 4080 AD103 2 505 1 400 4 864 9 728 112 16 256 48,7 717 320
RTX 4090 AD102 2 520 1 313 8 192 16 384 176 24 384 82,6 1 008 450

Rappelons qu'il est très difficile d'inférer les performances pratiques d'une carte graphique sur la seule base des valeurs brutes annoncées. Plusieurs raisons à cela, dont les fréquences réellement appliquées (qui diffèrent plus ou moins largement de celles officielles), mais aussi les subtilités architecturales quant aux conditions d'exécution de certaines unités ou l'impact par exemple des larges caches sur la bande passante mémoire effective. Toujours est-il que la RTX 4070 SUPER dispose d'un avantage conséquent (+ 22 %) en ce qui concerne la puissance de calcul théorique par rapport à la RTX 4070.

Elle est d'ailleurs plus proche de la version Ti, puisqu'elle dispose d'un peu plus de 88 % de son niveau de puissance de calcul. Ce n'est toutefois valable que si les fréquences réellement appliquées de part et d'autres sont celles officielles, ce qui n'est que rarement le cas. Côté bande passante mémoire, elle ne change pas puisque le bus et la fréquence GDDR6X sont identiques entre les trois RTX 4070. Les SUPER et Ti disposent toutefois de 48 Mo de cache L2, là où la "vanilla" doit se contenter de 36 Mo. Exécutons quelques tests synthétiques pour tâcher d'y voir un peu plus clair.

Tests synthétiques

Nous utilisons la suite de tests Geeks 3D pour estimer les performances synthétiques de la nouvelle venue, lors de l’exécution de certaines tâches particulières. Ainsi, PixMark Julia FP32 permet de mesurer la puissance de calcul brute en simple précision (FP32) et le fillrate qui en découle. Il dépend donc à la fois des unités de calcul et des ROP. Le test GiMark, s’attache de son côté à évaluer les performances de nos cartes au niveau de la géométrie (génération de primitives 3D). Enfin, TessMark permet de son côté de mesurer les capacités en tessellation des différentes cartes. Ces tests étant relativement brefs et spécifiques (n’utilisant donc qu’une partie des ressources totales des GPU), ils permettent aux modèles limités par leur température et/ou puissance électrique maximale autorisée, de conserver des fréquences plus élevées que lors d’une session de jeu par exemple.

En matière de puissance de calcul brute, la RTX 4070 SUPER prend un avantage de 18 % par rapport à la 4070, tout en finissant à 9 % du modèle Ti. On retrouve donc l'ordre de grandeur théorique indiqué précédemment. Si l'écart reste inchangé entre ces 2 dernières pour le test géométrique (notez la contre performance de la RTX 4080, difficile de dire s'il s'agit d'un bug ou d'un bridage volontaire par NVIDIA de ses cartes les plus rapides pour éviter de concurrencer les modèles pro), il est par contre bien plus important en faveur de la SUPER face à sa petite soeur, sans qu'une raison particulièrement logique puisse expliquer ce fait, d'autant que les écarts retrouve la "normalité" pour le test de tesselation. Il faut toutefois garder à l'esprit que ces tests utilisent des scènes spécifiques, accentuant exagérément certains calculs pour permettre de les différencier. Ce n'est pas vraiment l'usage typique d'un rendu 3D, même si cela permet de mettre en évidence certaines limitations de telle ou telle architecture (ou GPU). Enfin, ils s'appuient sur OpenGL, une API commençant à dater et pouvant expliquer aussi ces "anomalies".

Tests synthétiques - RTX 4070 SUPER

1Images par seconde - Le plus élevé est le meilleur Titre Couleur PixMark Julia FP32 GiMark TessMark \nTitre Court PixMark GiMark TessMark \nSous-titre 0.7.0 - OpenGL 3.0 - UHD 0.7.0 - OpenGL 3.3 - UHD 0.7.0 - OpenGL 4.0 - UHD - X64 \nRadeon RX 6900 XT MBA #ED1C24 1562 309 471 \nGigabyte RX 7700 XT Gaming #ED1C24 1123 168 309 \nGigabyte RX 7800 XT Gaming #ED1C24 1357 175 318 \nRadeon RX 7900 XT MBA #ED1C24 1602 350 491 \nRadeon RX 7900 XTX MBA #ED1C24 1988 368 513 \nARC A770 LE 16G #0068B5 879 260 209 \nGeForce RTX 3090 FE #76B900 1758 307 657 \nGeForce RTX 4070 FE #76B900 1486 234 568 \nGeForce RTX 4070 SUPER FE #000000 1749 303 677 \nGainward RTX 4070 Ti Phoenix #76B900 1906 327 737 \nGeForce RTX 4080 FE #76B900 2247 262 924

Passons à présent à des tests synthétiques issus de 3DMark, en s’attachant à vérifier les capacités des cartes graphiques sur diverses fonctionnalités. DXR, au nom explicite, sollicite de manière intensive les capacités d’accélération du Ray Tracing par le GPU, au travers de l’API de Microsoft. Cette fois, la charge est bien plus sévère et l'on constate que la SUPER colle littéralement la version Ti (qui ne dispose finalement "que" de 4 RT Cores supplémentaires), devançant ainsi de 21 % la RTX 4070.

Mesh Shader évalue la capacité de traitement de ces derniers par les GPU modernes. Le test permet de comparer les performances avec et sans Mesh Shaders actifs, mais cette représentation ne permet pas une comparaison pertinente entre cartes. Nous affichons donc les performances de chaque référence avec Mesh Shaders actifs. La nouvelle venue devance de 26 % sa petite soeur tout en cédant 9 % à la 4070 Ti. Le test PCIe confirme l'emploi de 16 lignes Gen 4 sur la nouvelle-née, sans surprise.

Le test Sampler Feedback, mesure de son côté l’impact de cette fonctionnalité introduite (comme la plupart des autres) par les cartes Turing. Les écarts sont cette fois plus resserrés entre les trois RTX 4070, la SUPER étant encore une fois plus proche de la Ti que du modèle "vanilla". Enfin, le test VRS, abréviation de Variable Rate Shading, permet de mesurer le gain apporté par cette fonctionnalité lorsqu’elle est activée. Là aussi, le test affichant une comparaison entre 2 passes, nous préférons reporter ici le score atteint par chaque carte une fois la fonctionnalité activée, permettant ainsi une comparaison brute entre elles. Pas de changement de hiérarchie notable par rapport au test précédent, si ce n'est un avantage légèrement plus important de la SUPER sur sa petite soeur, mais aussi de la Ti sur la SUPER.

Tests fonctionnalités - RTX 4070 SUPER

2Le plus élevé est le meilleur Titre Couleur 3DMark: DXR 3DMark: Mesh Shader 3DMark: PCIe Bandwidth 3DMark: Sampler Feedback 3DMark: Variable Rate Shading \nTitre Court DXR Mesh Shader PCIe Bandwidth Sampler Feedback Variable Rate Shader \nSous-titre 2.28.8217.0 - QHD 2.28.8217.0 - UHD 2.28.8217.0 - UHD 2.28.8217.0 - UHD 2.28.8217.0 - UHD \nAxe x Images par seconde - Le plus élevé est le meilleur Images par seconde - Le plus élevé est le meilleur Go/s - Le plus élevé est le meilleur Images par seconde - Le plus élevé est le meilleur Images par seconde - Le plus élevé est le meilleur \nRadeon RX 6900 XT MBA #ED1C24 37.6 572.8 26.9 515.9 224.5 \nGigabyte RX 7700 XT Gaming #ED1C24 32.2 384.9 27.3 430.5 192.4 \nGigabyte RX 7800 XT Gaming #ED1C24 35.5 434.0 27.0 549.6 223.3 \nRadeon RX 7900 XT MBA #ED1C24 49.9 588.7 26.0 696.3 281.0 \nRadeon RX 7900 XTX MBA #ED1C24 57.4 608.2 24.1 789.9 331.3 \nARC A770 LE 16G #0068B5 32.5 447.3 17.2 369.5 119.5 \nGeForce RTX 3090 FE #76B900 57.7 658.2 24.1 741.5 252.4 \nGeForce RTX 4070 FE #76B900 51.4 522.4 24.2 571.9 223.4 \nGeForce RTX 4070 SUPER FE #000000 62.3 657.3 24.2 649.3 262.8 \nGainward RTX 4070 Ti Phoenix #76B900 63.8 718.0 24.2 686.4 290.6 \nGeForce RTX 4080 FE #76B900 84.8 907.3 24.1 901.5 366.2

Voilà pour les spécifications des différentes cartes et leurs performances synthétiques, passons page suivante à l'analyse de leurs fréquences en jeu.

Eric


  • Excellent test

    La carte améliore le perf/prix chez nvidia c'est toujours une bonne chose mais je trouve que 12 go ça ne lui va pas bien

    • C'est sûr que 16 Go eussent été mieux, mais on est pas limité par les 12 Go pour l'heure, en particulier en QHD. Le bus mémoire 192-bit permet aussi de réduire significativement la taille du die (les interfaces sont moins denses en transistors et scalent moins bien en affinant la gravure comme l'a prouvé AMD), sur du 4/5 nm ce n'est pas négligeable en terme de coût pour une puce monolithique. Après Nvidia pourrait aussi sacrifier un peu de sa marge, mais vu qu'il en fait beaucoup plus sur les puces dédiées à l'IA et que TSMC n'arrive pas à suivre, je crois qu'il faut pas trop en demander pour le moment.

      • Tsmc peut suivre

        C'est l'emballage des puces ia qui bloque pas la production des die

        • J'avoue que je n'ai pas suivi pour savoir où se trouvait la limitation. M'enfin t'as compris la remarque : pourquoi rogner sa marge quand tu peux faire plus de sous en privilégiant l'affectation des puces à l'IA plutôt qu'au gaming.

          Je précise que je ne cautionne pas, mais je serais CEO je me poserais sérieusement la question.

          • Bah je te réponds ils peuvent produire plus si nvidia le décide

            C'est l emballage du die avec l interposé et la hbm qui bloque

            Chose que n'utilise pas les puces gaming

          • Bah je te réponds ils peuvent produire plus si nvidia le décide

            C'est l emballage du die avec l interposé et la hbm qui bloque

            Chose que n'utilise pas les puces gaming

            Ah mais tu n'utilises pas que du H100/H200 pour faire de l'IA, tu as aussi des produits comme les L40 (principalement utilisés en inférence) qui n'ont pas de HBM (puisque c'est un AD102) et qui margent plus qu'une GeForce.

      • Que penses tu d'un bus 128 bits avec 8 puces donc 16 go mais 64 mo de cache et ram à 24 gbps ?

        • Je ne suis pas architecte GPU, mais j'imagine que les ingénieurs de Nvidia ont fait leurs simulations et que l'option retenue pour AD104 était le meilleur compromis à leurs yeux.

          • Bah ça a 2 problème je pense que la puce serait pas plus petit le cache remplaçant les contrôleur ram en moins

            Mais 2 puces ram en plus plus cher et version pro avec plus de ram impossible

          • Bah ça a 2 problème je pense que la puce serait pas plus petit le cache remplaçant les contrôleur ram en moins

            Mais 2 puces ram en plus plus cher et version pro avec plus de ram impossible

            C'est marrant tu fais les questions et les réponses 🙂

45 commentaires

Laissez votre commentaire

En réponse à Some User