Logo Deepseek

Alors qui s'en sort le mieux entre AMD et Nvidia avec la dernière IA à la mode ?

Si vous faites partie de nos fidèles lecteurs, le petit drama lié à DeepSeek ne vous aura pas échappé. Pour les autres, ce billet de Matthieu devrait vous éclairer à ce sujet. Une fois les émotions initiales passées, les fabricants de GPU ont cherché à se mettre en avant en proposant de faire tourner localement la chose comme l'indiquait Nicolas au sein de cette news. Pour ce faire tant AMD que Nvidia ont proposé des tutoriels pour aider les curieux à ce sujet. Comme nous avouons volontiers ce vilain (ou pas) défaut, nous avons entrepris de réaliser nos propres tests pour confronter les dernières solutions des Verts et des Rouges. Il existe plusieurs méthodes pour faire fonctionner les modèles d'IA DeepSeek sur un PC Windows, nous avons retenu la plateforme llama.cpp s'appuyant sur une librairie open-source C++ conçue pour faciliter l'inférence de LLMs (Large Language Models) sur du matériel d'origine et de type différents.

On peut ainsi tout aussi bien utiliser le CPU que les GPU, ce qui nous intéresse ici. Les verts peuvent ainsi compter sur CUDA pour interfacer leur matériel, HIP pour AMD, mais Vulkan est aussi disponible pour tous les constructeurs. À noter que lors de nos tests préparatifs, nous avons obtenu systématiquement de meilleurs scores avec la version Vulkan que HIP (gfx1101 au niveau du lien précédent) pour la RX 7800 XT. Nous avons donc retenu Vulkan pour l'ensemble des Radeon testées, dont les scores sont reportés dans le graphique ci-dessous. La librairie inclut un utilitaire bien pratique nommé llama-bench qui est conçu pour mesurer les performances en inférence (simulant la saisie des questions et la génération de texte associé). Nous utilisons deux modèles différents pour varier les saveurs, à savoir DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf et DeepSeek-R1-Distill-Llama-8B-Q4_K_M.gguf. Les pilotes respectifs sont les 25.1.1 et 572.12.

DeepSeek - Performances GPU

1Tokens par seconde - Le plus élevé est le meilleur Titre Couleur Deepseek (génération de texte) Deepseek (génération de texte) \nTitre Court Qwen 2 Llama 8B \nSous-titre Qwen 2 7B Q4K - CUDA / VULKAN Llama 8B Q4K - CUDA / VULKAN \nRadeon RX 6900 XT MBA #ED1C24 84.9 78.1 \nGigabyte RX 7800 XT Gaming OC #ED1C24 82.0 77.0 \nGigabyte RX 7900 GRE Gaming OC #ED1C24 70.8 64.6 \nRadeon RX 7900 XT MBA #ED1C24 90.6 85.4 \nRadeon RX 7900 XTX MBA #ED1C24 103.9 97.1 \nGeForce RTX 3080 FE #76B900 116.1 109.2 \nGeForce RTX 3090 FE #76B900 134.0 125.9 \nAsus ROG Strix RTX 4070 Ti SUPER Gaming #76B900 113.9 107.4 \nGeForce RTX 4080 SUPER FE #76B900 123.6 116.4 \nGeForce RTX 4090 FE #76B900 153.9 145.7 \nGeForce RTX 5080 FE #76B900 146.5 136.8 \nGeForce RTX 5090 FE #76B900 219.6 207.0

Comme on pouvait s'y attendre, il n'y a pour l'heure pas photo entre les deux constructeurs dans ce domaine, DeepSeek ne changeant rien au rapport de force. Reste à voir si RDNA 4 rebattra ou non les cartes le mois prochain.

Eric


  • AMD a quand même un avantage c'est de proposer plus de VRAM pour moins cher. Là ce sont deux petits modèles qui tiennent largement dans la VRAM des gpus testés (qui n'ont d'ailleurs pas grand chose à voir avec deepseek si ce n'est le nom et un peu de fine tuning avec les sorties du modèle original). Avec des modèles un peu plus gros on peut vite se retrouver coincé par le manque de VRAM.

    Mais de toute façon l'intégration de CUDA est tellement transparente dans tous les framework liés à l'IA que bosser sur de l'amd c'est au mieux du bricolage et souvent la galère totale...

    Ça aurait pu être marrant de mettre à côté quelques bench CPU pur Intel/AMD. 

  • Les perfs I.A. sont grandement impactees par la bande passante VRAM, donc evidemment la RTX 5090 avec son bus hyper large et sa GDDR7 caracole en tete.

    Ceci dit, comme dit Edenar, le plus important c'est d'avoir suffisament de VRAM pour que le modele tienne entierement dedans, sinon il y a offloading vers le CPU avec un ecroulement des performances.

    D'autre part, 100 tokens par secondes, c'est deja extremement rapide donc suffisant pour une utilisation en amateur.

    Pour info j'utilise actuellement un modele Falcon 180B qui pese environ 120Go, avec une vitesse de moins d'un token par seconde, donc le plus important pour moi est d'avoir le max de VRAM pour pouvoir y charger le plus grand pourcentage possible du modele.

    Les perfs pures en I.A. de la carte graphique, ca reste un parametre secondaire

    • Falcon 180B je connais pas, c'est pour du texte ? c'est bien ?
      Les perfs pures en IA ça sert quand tu finetune pour pas y passer 30 ans, et pour l'entrainement tout court mais on va dire qu'entrainer un modèle de taille raisonnable de 0 c'est hors de portée, même avec quelques 5090 (au moins en ce qui concerne les llm).

      • J'ai telecharge celui-ci :

        https://huggingface.co/mradermacher/falcon-180B-i1-GGUF

        Plus precisement le "falcon-180B.i1-Q4_K_M.gguf"

        Je me contente de faire de l'inference, ca me sert de dictionnaire anglais

4 commentaires

Laissez votre commentaire

En réponse à Some User