Spécifications
Avant d'aborder les spécifications des différentes cartes lancées, un mot rapide sur les GPU et procédés de fabrication associés. Commençons par le cas le plus simple, à savoir Intel qui se contente pour l'heure de 2 GPU : l'ACM-G10 pour les solutions moyen de gamme et performance (ARC A770/750 et théoriquement A5xx que nous n'avons jamais vues) et l'ACM-G11 pour l'entrée de gamme (ARC A3xx). Intel est un fondeur, mais plutôt que de faire appel à ses propres capacités de production, il sous-traite la gravure de ces 2 puces à TSMC via son procédé de fabrication N6, une optimisation du nœud 7 nm. Clairement dépassé en termes de densité ou de performance par le 5 nm (et maintenant 3 nm) du géant taïwanais des semiconducteurs, ce procédé de fabrication à l'avantage d'être bien moins cher. ACM-G10 est une puce plutôt conséquente, avec un peu plus de 400 mm² de surface et pas moins de 21,7 milliards de transistors. Son petit frère se contente de 157 mm² pour 7 milliards de transistors.
NVIDIA de son côté a fait un choix totalement différent, en basculant l'intégralité de sa gamme sur le 4N de TSMC, une déclinaison "personnalisée" du très performant 5 nm. Pas moins de 5 GPU différents ont été conçus, allant d'AD102 intégrant plus de 76 milliards de transistors sur une superficie de 608 mm² et animant la RTX 4090, au petit AD107 se contentant de 159 mm² pour presque 19 milliards et affecté cette fois à la RTX 4060. Entre ces 2 extrêmes, se trouvent les puces AD103 (RTX 4070 Ti SUPER / RTX 4080 / RTX 4080 SUPER), AD104 (RTX 4070 Ti / RTX 4070 / RTX 4070 SUPER) et AD106 (RTX 4060 Ti) par ordre décroissant de superficie et complexité. Ces 5 références monopolisent le haut du classement en matière de densité de transistors par mm², multipliant pratiquement par trois cette valeur en comparaison du précédent N8 de Samsung utilisé par la génération Ampere (RTX 30). Il existe donc une différence très conséquente entre ces 2 nœuds de gravure, et ce contrairement à ce que laisseraient penser leurs nomenclatures commerciales respectives. Le N8 est en fait une optimisation du node 10nm, NVIDIA "enjambant" donc le 7 nm pour passer directement au 5 nm, soit un saut de 2 générations.
AMD a lui opté pour un "en même temps" au moyen de chiplets, une stratégie que ne renierait pas un homme politique français, ayant été élu à deux reprises à la magistrature suprême. Le N5 de TSMC est donc dévolu aux GCD, alors que les MCD doivent de leur côté se contenter du N6, tout comme Navi 33. Ce dernier, purement monolithique, mesure 204 mm² pour 13,3 milliards de transistors et se charge d'animer les RX 7600 et RX 7600 XT. À l'autre bout de la gamme, les 6 MCD plus le GCD d'un Navi 31 complet occupent une superficie totale de presque 530 mm², pour 57,7 milliards de transistors. La densité est donc légèrement moindre que sur les puces intégralement en 4N du caméléon, mais finalement pas si éloignée malgré le mix des nœuds de gravure. Cela tendrait à corroborer l'assertion d'AMD quant aux faibles gains (en densité au moins) à attendre d'une gravure plus fine pour certains éléments constitutifs d'un GPU. Les RX 7900 XTX / 7900 XT et 7900 GRE emploient un tel GPU. Enfin, Navi 32 des RX 7700 XT et 7800 XT couple un GCD de 200 mm² gravé en 5 nm, à 4 MCD gravés en 6 nm par TSMC. La partie logique étant fortement réduite sur ce nouveau GCD, la densité va finalement se positionner entre celle de Navi 33 et Navi 31.
GPU |
Process |
Nombre de transistors | Superficie die | Densité (Millions de transistors par mm²) |
---|---|---|---|---|
AD102 | 4N TSMC | 76,3 milliards | 608,5 mm² | 125,4 |
AD106 | 4N TSMC | 22,9 milliards | 187,8 mm² | 121,9 |
AD104 | 4N TSMC | 35,8 milliards | 294,5 mm² | 121,6 |
AD103 | 4N TSMC | 45,9 milliards | 378,6 mm² | 121,2 |
AD107 | 4N TSMC | 18,9 milliards | 158,7 mm² | 119,1 |
Navi 31 | N5 + N6 TSMC | 57,7 milliards | 529,5 mm² | 109 |
Navi 32 | N5 + N6 TSMC | 28,1 milliards | 350 mm² | 80,3 |
GA100 | 7N TSMC | 54.2 milliards | 826 mm² | 65,6 |
Navi 33 | N6 TSMC | 13,3 milliards | 204 mm² | 65,2 |
ACM-G10 | N6 TSMC | 21,7 milliards | 406 mm² | 53,4 |
Navi 21 | N7P TSMC | 26,8 milliards | 520 mm² | 51,6 |
Navi 22 | N7P TSMC | 17,2 milliards | 335 mm² | 51,3 |
Navi 24 | N6 TSMC | 5,4 milliards | 107 mm² | 50,5 |
Navi 23 | N7P TSMC | 11,1 milliards | 237 mm² | 46,8 |
ACM-G11 | N6 TSMC | 7,2 milliards | 157 mm² | 45,9 |
GA102 | 8N Samsung | 28,3 milliards | 628,4 mm² | 45 |
GA104 | 8N Samsung | 17,4 milliards | 392 mm² | 44,4 |
GA106 | 8N Samsung | 12 milliards | 276 mm² | 43,5 |
Navi 10 | N7P TSMC | 10,3 milliards | 251 mm² | 41 |
Vega 20 | N7FF TSMC | 13.2 milliards | 331 mm² | 39,9 |
GP102 | 16FFC TSMC | 12 milliards | 471 mm² | 25,5 |
Vega 10 | 14LPP GF | 12.5 milliards | 495 mm² | 25,3 |
GP100 | 16FFC TSMC | 15,3 milliards | 610 mm² | 25,1 |
TU104 | 12FFC TSMC | 13,6 milliards | 545 mm² | 25 |
TU102 | 12FFC TSMC | 18,6 milliards | 754 mm² | 24,7 |
TU106 | 12FFC TSMC | 10,8 milliards | 445 mm² | 24,3 |
Détaillons à présent les caractéristiques des cartes employant ces GPU en comparaison d’un certain nombre de cartes des segments performance, haut de gamme, et enthusiast, des générations actuelle et précédentes.
Cartes | GPU | Fréq. Boost GPU (MHz) | Fréq. Mémoire (MHz) |
SP |
ALU FP32 | ROP | VRAM (Go) | Bus mem. (bits) | Calcul SP (Tflops) | Bande Passante mémoire (Go/s) | TGP (W) |
---|---|---|---|---|---|---|---|---|---|---|---|
RX Vega56 | Vega 10 | 1 471 | 800 | 3 584 | 3 584 | 64 | 8 | 2 048 | 10,5 | 410 | 210 |
RX Vega64 | Vega 10 | 1 546 | 946 | 4 096 | 4 096 | 64 | 8 | 2 048 | 12,7 | 484 | 295 |
Radeon VII | Vega 20 | 1 750 | 1 000 | 3 840 | 3 840 | 64 | 16 | 4 096 | 13,4 | 1 024 | 300 |
RX 5700 | Navi 10 | 1 725 | 1 750 | 2 304 | 2 304 | 64 | 8 | 256 | 7,9 | 448 | 180 |
RX 5700 XT | Navi 10 | 1 905 | 1 750 | 2 560 | 2 560 | 64 | 8 | 256 | 9,8 | 448 | 225 |
RX 6700 | Navi 22 | 2 174 | 1 988 | 2 304 | 2 304 | 64 | 10 | 160 | 10 | 318 | 175 |
RX 6700 XT | Navi 22 | 2 424 | 1 988 | 2 560 | 2 560 | 64 | 12 | 192 | 12,4 | 382 | 230 |
RX 6750 XT | Navi 22 | 2 495 | 2 238 | 2 560 | 2 560 | 64 | 12 | 192 | 12,8 | 430 | 250 |
RX 6800 | Navi 21 | 1 815 | 1 988 | 3 840 | 3 840 | 96 | 16 | 256 | 13,9 | 509 | 250 |
RX 6800 XT | Navi 21 | 2 015 | 1 988 | 4 608 | 4 608 | 128 | 16 | 256 | 18,6 | 509 | 300 |
RX 6900 XT | Navi 21 | 2 015 | 1 988 | 5 120 | 5 120 | 128 | 16 | 256 | 20,6 | 509 | 300 |
RX 6950 XT | Navi 21 | 2 100 | 2 238 | 5 120 | 5 120 | 128 | 16 | 256 | 21,5 | 573 | 335 |
RX 7700 XT | Navi 32 | 2 544 | 2 238 | 3 456 | 6 912 | 96 | 12 | 192 | 35,2 | 430 | 245 |
RX 7800 XT | Navi 32 | 2 430 | 2 425 | 3 840 | 7 680 | 96 | 16 | 256 | 37,3 | 621 | 263 |
RX 7900 GRE | Navi 31 | 2 245 | 2 238 | 5 120 | 10 240 | 192 | 16 | 256 | 46,0 | 573 | 260 |
RX 7900 XT | Navi 31 | 2 400 | 2 487 | 5 376 | 10 752 | 192 | 20 | 320 | 51,6 | 796 | 315 |
RX 7900 XTX | Navi 31 | 2 500 | 2 487 | 6 144 | 12 288 | 192 | 24 | 384 | 61,4 | 955 | 355 |
ARC A750 | ACM-G10 | 2 400 | 2 000 | 3 584 | 3 584 | 112 | 8 | 256 | 17,2 | 512 | 225 |
ARC A770 | ACM-G10 | 2 400 | 2 000 / 2 188 | 4 096 | 4 096 | 128 | 8 / 16 | 256 | 19,7 | 512 / 560 | 225 |
GTX 1070 | GP104 | 1 683 | 2 002 | 1 920 | 1 920 | 64 | 8 | 256 | 6,5 | 256 | 150 |
GTX 1070 Ti | GP104 | 1 683 | 2 002 | 2 432 | 2 432 | 64 | 8 | 256 | 8,2 | 256 | 180 |
GTX 1080 | GP104 | 1 733 | 1 251 | 2 560 | 2 560 | 64 | 8 | 256 | 8,9 | 320 | 180 |
GTX 1080 Ti | GP102 | 1 582 | 1 376 | 3 584 | 3 584 | 88 | 11 | 352 | 11,3 | 484 | 250 |
RTX 2070 | TU106 | 1 620 | 1 750 | 2 304 | 2 304 | 64 | 8 | 256 | 7,5 | 448 | 175 |
RTX 2070 SUPER | TU104 | 1 770 | 1 750 | 2 560 | 2 560 | 64 | 8 | 256 | 9,1 | 448 | 215 |
RTX 2080 | TU104 | 1 710 | 1 750 | 2 944 | 2 944 | 64 | 8 | 256 | 10,1 | 448 | 215 |
RTX 2080 SUPER | TU104 | 1 815 | 1 938 | 3 072 | 3 072 | 64 | 8 | 256 | 11,2 | 496 | 250 |
RTX 2080 Ti | TU102 | 1 545 | 1 750 | 4 352 | 4 352 | 88 | 11 | 352 | 13,5 | 616 | 250 |
RTX 3070 | GA104 | 1 725 | 1 750 | 2 944 | 5 888 | 96 | 8 | 256 | 20,3 | 448 | 220 |
RTX 3070 Ti | GA104 | 1 770 | 1 188 | 3 077 | 6 144 | 96 | 8 | 256 | 21,7 | 608 | 290 |
RTX 3080 | GA102 | 1 710 | 1 188 | 4 352 | 8 704 | 96 | 10 | 320 | 29,8 | 760 | 320 |
RTX 3080 12 Go | GA102 | 1 710 | 1 188 | 4 480 | 8 960 | 96 | 12 | 384 | 30,6 | 912 | 350 |
RTX 3080 Ti | GA102 | 1 665 | 1 188 | 5 120 | 10 240 | 112 | 12 | 384 | 34,1 | 912 | 350 |
RTX 3090 | GA102 | 1 695 | 1 219 | 5 248 | 10 496 | 112 | 24 | 384 | 35,6 | 936 | 350 |
RTX 3090 Ti | GA102 | 1 860 | 1 313 | 5 376 | 10 752 | 112 | 24 | 384 | 40 | 1 008 | 450 |
RTX 4070 | AD104 | 2 475 | 1 313 | 2 944 | 5 888 | 64 | 12 | 192 | 29,1 | 504 | 200 |
RTX 4070 SUPER | AD104 | 2 475 | 1 313 | 3 584 | 7 168 | 80 | 12 | 192 | 35,5 | 504 | 220 |
RTX 4070 Ti | AD104 | 2 610 | 1 313 | 3 840 | 7 680 | 80 | 12 | 192 | 40,1 | 504 | 285 |
RTX 4070 Ti SUPER | AD103 | 2 610 | 1 313 | 4 224 | 8 448 | 96 | 16 | 256 | 44,1 | 672 | 285 |
RTX 4080 | AD103 | 2 505 | 1 400 | 4 864 | 9 728 | 112 | 16 | 256 | 48,7 | 717 | 320 |
RTX 4080 SUPER | AD103 | 2 550 | 1 438 | 5 120 | 10 240 | 112 | 16 | 256 | 52,2 | 736 | 320 |
RTX 4090 | AD102 | 2 520 | 1 313 | 8 192 | 16 384 | 176 | 24 | 384 | 82,6 | 1 008 | 450 |
Rappelons qu'il est très difficile d'inférer les performances pratiques d'une carte graphique sur la seule base des valeurs brutes annoncées. Plusieurs raisons à cela, dont les fréquences réellement appliquées (qui diffèrent plus ou moins largement de celles officielles comme vous le verrez page suivante), mais aussi les subtilités architecturales quant aux conditions d'exécution de certaines unités ou l'impact par exemple des larges caches sur la bande passante mémoire effective. Toujours est-il que la RTX 4080 SUPER dispose d'un avantage de 7 % en puissance de calcul théorique par rapport à la RTX 4080.
Autant dire qu'on ne va pas aller loin à ce niveau, d'autant que ce n'est valable que si les fréquences réellement appliquées de part et d'autres sont celles officielles, ce qui n'est pour ainsi dire, jamais le cas. Côté bande passante mémoire, le gain se limite à 2,6 %, pas de quoi casser trois pattes à un canard. Le cache L2 est par contre 6,7 % plus large, mais il est très difficile de définir à quel degré cela pourra aider la nouvelle venue. En effet, si les données requises sont présentes en cache, alors le GPU profite du débit de ce dernier, comme explicité ci-dessous. 4 Mo de plus changent-ils vraiment la donne pour autant ?
L'impact du cache L2 sur les besoins en accès mémoire
Mettons donc à l'épreuve les valeurs théoriques en exécutant quelques tests synthétiques de bas niveau.
Tests synthétiques
Nous utilisons la suite de tests Geeks 3D pour estimer les performances synthétiques de la nouvelle venue, lors de l’exécution de certaines tâches particulières. Ainsi, PixMark Julia FP32 permet de mesurer la puissance de calcul brute en simple précision (FP32) et le fillrate qui en découle. Il dépend donc à la fois des unités de calcul et des ROP. Le test GiMark, s’attache de son côté à évaluer les performances de nos cartes au niveau de la géométrie (génération de primitives 3D). Enfin, TessMark permet de son côté de mesurer les capacités en tessellation des différentes cartes. Ces tests étant relativement brefs et spécifiques (n’utilisant donc qu’une partie des ressources totales des GPU), ils permettent aux modèles limités par leur température et/ou puissance électrique maximale autorisée, de conserver des fréquences plus élevées que lors d’une session de jeu par exemple.
En matière de puissance de calcul brute, la RTX 4080 SUPER prend un avantage de 5 % par rapport à la 4080, soit un peu moins que l'attendu. En termes de géométrie, c'est encore pire puisque les 2 cartes finissent dans la marge d'erreur du test. On retrouve toujours le comportement erratique d'AD103 sur ce test, puisque à l'image des RTX 4080 et RTX 4070 Ti, la nouvelle-née sous-performe elle aussi, sans qu'aucune raison logique puisse expliquer ce fait. Finissons par la tesselation, qui renvoie un écart de 3 % entre les deux 4080. Pour sûr, ces deux là sont proches comme on pouvait s'y attendre à la seule lecture de leurs caractéristiques respectives. Gardez également à l'esprit que ces tests utilisent des scènes avec des charges très spécifiques ne correspondant pas vraiment à l'usage typique d'un rendu 3D. Qui plus est, ils s'appuient sur OpenGL, une API commençant à dater.
Tests synthétiques - RTX 4080 SUPER
Passons à présent à des tests synthétiques issus de 3DMark, en s’attachant à vérifier les capacités des cartes graphiques pour diverses fonctionnalités. DXR, au nom explicite, sollicite de manière intensive les capacités d’accélération du Ray Tracing par le GPU, au travers de l’API de Microsoft. La nouvelle venue termine 5 % devant la RTX 4080 "vanilla", à nouveau un écart très faible. Mesh Shader évalue la capacité de traitement de ces derniers par les GPU modernes. Le test permet de comparer les performances avec et sans Mesh Shaders actifs, mais cette représentation ne permet pas une comparaison pertinente entre cartes. Nous affichons donc les performances de chaque référence avec Mesh Shaders actifs. La RTX 4080 SUPER fait la grimace, puisqu'elle s'incline face à la RTX 4080 et ce malgré la multiplication des passes. On reste dans la marge d'erreur du test malgré tout.
Le test PCIe confirme l'emploi de 16 lignes Gen 4 sur la nouvelle-née, sans surprise. Le test Sampler Feedback mesure de son côté l’impact de cette fonctionnalité introduite (comme la plupart des autres) par les cartes Turing. L'écart entre les deux références est encore très réduit, puisque nous ne mesurons que 3 %. Enfin, le test VRS, abréviation de Variable Rate Shading, permet de mesurer le gain apporté par cette fonctionnalité lorsqu’elle est activée. Là aussi, il s'agit d'une comparaison entre 2 passes, nous préférons donc reporter ici le score atteint par chaque carte une fois la fonctionnalité activée, permettant ainsi une comparaison brute entre elles. La 4080 SUPER prend cette fois 4 % d'avance, youpi. Plaisanterie à part, ces mesures montrent à quel point les deux cartes sont proches en termes de caractéristiques, le différentiel de performance est alors très sensible à la précision et répétabilité du test.
Tests fonctionnalités - RTX 4080 SUPER
Voilà pour les spécifications des différentes cartes et leurs performances synthétiques, passons page suivante à l'analyse des fréquences en jeu de la nouvelle venue.
Très bon test
La carte se repositionne à un meilleur prix aisément si je devais acheter je préfère la 4070 ti super qui perd peu en perf mais qui est quasiment 300 € moins cher
220 € moins cher ce n'est pas quasiment 300 € moins cher, faut pas exagérer. Le rapport perf/prix est quand même légèrement en faveur de la 4070 Ti Super, la 4080 Super est environ 5-6% plus chère par fps.
Oui j'ai mal vu elle garde un meilleur perf/prix
C'est exactement ce a quoi je m'attendais, convaincu personnellement que son seul intéret était la chute de son prix, je n'en suis pas déçu.
En revanche je trouve que c'est encore plus vrai pour cette gen, mais aucun intéret d'acheter autre chose qu'une FE ...
Hello,
merci pour le test complet :)
c'est étonnant à quel point les performances Ray tracing de la 3090FE s'éffondrent en UHD upscaled par rapport à la 4070 FE/SUPER sur certains jeux (CP2077, Alan Wake 2, plage tale).
Edit: sur ces 3 jeux, les perfos en UHD upscaling sont inférieures aux perfos QHD non upscalé sur la 3090FE alors que c'est l'inverse sur les 4070.
On peut savoir quelle qualité d'upscale a été utilisée en UHD, est-ce que c'est la même pour tous les jeux ?
Edit 2: merci pour les précisions.
C'est expliqué dans le test, nous couplons l'upscale au FG lorsque disponible et ce n'est possible qu'avec les jeux FSR 3 pour cette dernière. L'upscaling est réglé en mode qualité systématiquement. 😉
Merci,
Si je peux me permettre une suggestion, ce serait pas mal d'ajouter sur les bar charts par jeu la moyenne avec et sans frame generation lorsque ça s'applique.. bon c'est du boulot en plus j'en conviens !
A titre perso, mélanger dans les indices de perfo et impact Ray tracing les moyennes tantôt avec tantôt sans frame gen, selon le jeu et la génération de GPU, ca ne m'aide pas à estimer au mieux l'écart entre les GPU, d'autant plus si on consulte le test dans quelques mois et que des jeux ont ete MAJ avec frame gen entre temps.
C'est un compromis temporel nécessaire. Je ne peux pas tester 20 jeux en rastérisation, 18 en RT et xx avec upscaling et/ou FG. Ici, tu as 3 indices (QHD/UHD/QHD RT) qui ne mixent aucune de ces technologies et qui permettent tout à fait d'estimer les GPU entre eux sans ces apports. L'UHD + RT est comme écrit quasi inaccessible à la plupart des cartes sans appui de ces technos (hors RT très light), donc c'est légitime de privilégier ce compromis dans ces conditions. C'est de toute façon la limite de ce que je peux faire au vu de ma disponibilité et du temps nécessaire au rajout de modes supplémentaires, tu m'en vois navré même si j'en conviens, ce serait encore mieux de pouvoir le faire. Mais ça impliquerait soit dégrader la qualité (conserver les résultats de tests durant de longs mois sans prendre en compte les nouveaux patchs et pilotes), soit réduire l'échantillon de jeux. J'ai choisi de privilégier ces 2 points.
Oui, je comprends bien la charge énorme de travail que ca demande, et on est bien chanceux de pouvoir en profiter !
Peut-être que ce serait simple de rajouter simplement une mention dans le sous titre du jeu ou une astérisque à coté de la moyenne pour savoir s'il bénéficie ou non de la frame gen ?
Ca permettrait de retrouver l'info assez facilement (je ne retrouve pas l'info dans l'article de quel jeu en profite ou pas..)
Oui effectivement, je vais voir pour ajouter la mention dans le sous-titre des jeux concernés. Je ne l'avais pas fait parce que toutes les cartes n'en profitant pas forcément, ça pouvait induire en erreur, mais je vais voir comme "tourner" cela. 😉