Sur le segment professionnel, AMD a recours à une stratégie similaire à celle employée pré-Ray Tracing côté grand public : offrir des cartes plus puissantes sur le papier à un tarif moindre dans le but de compenser un écosystème logiciel en retrait par rapport au concurrent vert. Cependant, la où la différence de prix se limitait à quelques dizaines de pour cent sur les cartes graphiques, la donne est sacrément changée pour les datacenter : la MI300X est en effet tarifée aux environs de 15 000 $ l’unité, là où la H100 concurrente du caméléon débuterait aux alentours de 30 000 $, le tout pour un TDP similaire (750 W vs 700 W), autrement dit un coût d’exploitation proche en pratique. Avec 1 307 TFLOPS en FP16/BF16 pour les rouges contre 989 pour NVIDIA, le match semble pencher sur le papier en direction du premier cité.
Sauf que les spécifications sur papier ne sont pas toujours en accord avec la réalité du terrain, c’est pourquoi nos confrères de chez SemiAnalysis ont mené une étude sur cinq mois dans le but d’estimer le coût total d’exploitation (nommé TCO en anglais, si cher aux entreprises) des deux cartes et, ainsi, témoigner de la différence de prix in fine entre les deux marques. Et la conclusion se révèle en fait être en faveur des verts, en tout cas pour une utilisation dédiée à l’apprentissage de modèles de machine learning.
En effet, les trouvailles de notre confrère montrent qu’AMD a encore du retard par rapport à l’écosystème CUDA, si bien que l’entraînement de modèles personnalisés est une expérience semée d’embûches, et impossible en sortie de boîte, en dépit des moult rapports de bugs et travail effectué tout au long de l’enquête — les benchmarks sont disponibles ouvertement en fin d’article, si cela vous intéresse. Il ressort une multitude de causes à l’immaturité des logiciels : manque de tests, base calquée sur du code originellement écrit pour des cartes NVIDIA, cycles de développements menant à des performances significativement différentes entre versions stables et versions de développement ou encore priorités données à certaines fonctionnalités pour de gros clients, forçant à la recompilation d’une version précise des bibliothèques pour obtenir les performances souhaitées. Du coup, les performances en pratique se révèlent bien en dessous du maximum théorique, et ce même dans des microbenchmarks représentants des cas simples (multiplication de matrice généralisée), un effet certes présent chez les verts mais dans une moins grande ampleur. Résultat ? Le ratio performance par dollars se retrouve côté verts, en dépit des tous les efforts des ingénieurs rouges.
Reste que les rouges ont un argument de taille : la disponibilité. Face à un NVIDIA submergé par l’explosion de la bulle IA, AMD peut faire valoir ses cartes à quiconque se retrouve pressé par l’horloge : une situation qui explique en partie l’état actuel de la pile logicielle — fragmentée et encore immature. Rajouter qu’être minoritaire signifie fatalement avoir moins d’utilisateurs, et donc moins de rapports de bugs et de rentrées d’argent (et de renommée !) pour recruter de la main-d’œuvre qualifiée et talentueuse. Est-ce que Lisa Su saura mettre de l’ordre dans tout cela et arriver à une stabilisation des fonctionnalités et une meilleure ergonomie pour les nouveaux arrivants ? Espérons-le, car les monopoles ne sont jamais une situation souhaitable : rendez-vous dans quelques releases pour en savoir plus !
Ben voilà, ils ont tout dit. Personnellement c'est la raison qui m'a fait revenir chez nVidia. Et si je devais acheter une carte aujourd'hui, ce serait encore une nVidia, précisément à cause de l'état de ROCm avec Pytorch.
AMD est avant tout une boite de hardware, ça se sent. Ils n'ont pas compris que c'est le software qui compte avant tout, et que le seul but du hardware est d'accélérer le software, et non l'inverse.