Logo Deepseek

Alors qui s'en sort le mieux entre AMD et Nvidia avec la dernière IA à la mode ?

Si vous faites partie de nos fidèles lecteurs, le petit drama lié à DeepSeek ne vous aura pas échappé. Pour les autres, ce billet de Matthieu devrait vous éclairer à ce sujet. Une fois les émotions initiales passées, les fabricants de GPU ont cherché à se mettre en avant en proposant de faire tourner localement la chose comme l'iniquait Nicolas au sein de cette news. Pour ce faire tant AMD que Nvidia ont proposé des tutoriels pour aider les curieux à ce sujet. Comme nous avouons volontiers ce vilain (ou pas) défaut, nous avons entrepris de réaliser nos propres tests pour confronter les dernière solutions des Verts et des Rouges.

Il existe plusieurs méthodes pour faire fonctionner les modèles d'IA DeepSeek sur un PC Windows, nous avons retenus la plateforme llama.cpp s'appuyant sur une librairie open-source C++ conçue pour faciliter l'inférence de LLMs (Large Language Models) sur du matériel d'origine et de type différente. On peut ainsi tout aussi bien utiliser le CPU pour les calculs mais aussi l'accélération via les GPU, ce qui nous intéresse ici. Les verts peuvent ainsi compter sur CUDA pour interfacer leur matériel, mais Vulkan est aussi disponible pour tous les constructeurs. La librairie inclut aussi un utilitaire bien pratique nommé llama-bench qui est conçu pour mesurer les performances en inférence (simulant la saisie des questions et la génération de texte associé). Nous utilisons deux modèles différents pour varier les saveurs, à savoir DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf et DeepSeek-R1-Distill-Llama-8B-Q4_K_M.gguf

DeepSeek - Performances GPU

1Tokens par seconde - Le plus élevé est le meilleur Titre Couleur Deepseek (génération de texte) Deepseek (génération de texte) \nTitre Court Qwen 2 Llama 8B \nSous-titre Qwen 2 7B Q4K - CUDA / VULKAN Llama 8B Q4K - CUDA / VULKAN \nRadeon RX 6900 XT MBA #ED1C24 84.9 78.1 \nGigabyte RX 7800 XT Gaming OC #ED1C24 82.0 77.0 \nGigabyte RX 7900 GRE Gaming OC #ED1C24 70.8 64.6 \nRadeon RX 7900 XT MBA #ED1C24 90.6 85.4 \nRadeon RX 7900 XTX MBA #ED1C24 103.9 97.1 \nGeForce RTX 3080 FE #76B900 116.1 109.2 \nGeForce RTX 3090 FE #76B900 134.0 125.9 \nAsus ROG Strix RTX 4070 Ti SUPER Gaming #76B900 113.9 107.4 \nGeForce RTX 4080 SUPER FE #76B900 123.6 116.4 \nGeForce RTX 4090 FE #76B900 153.9 145.7 \nGeForce RTX 5080 FE #76B900 146.5 136.8 \nGeForce RTX 5090 FE #76B900 219.6 207.0

Comme on pouvait s'y attendre, il n'y a pour l'heure pas photo entre les deux constructeurs dans ce domaine, DeepSeek ne changeant rien au rapport de force. Reste à voir si RDNA 4 rebattera ou non les cartes le mois prochain.

Eric


  • AMD a quand même un avantage c'est de proposer plus de VRAM pour moins cher. Là ce sont deux petits modèles qui tiennent largement dans la VRAM des gpus testés (qui n'ont d'ailleurs pas grand chose à voir avec deepseek si ce n'est le nom et un peu de fine tuning avec les sorties du modèle original). Avec des modèles un peu plus gros on peut vite se retrouver coincé par le manque de VRAM.

    Mais de toute façon l'intégration de CUDA est tellement transparente dans tous les framework liés à l'IA que bosser sur de l'amd c'est au mieux du bricolage et souvent la galère totale...

    Ça aurait pu être marrant de mettre à côté quelques bench CPU pur Intel/AMD. 

  • Les perfs I.A. sont grandement impactees par la bande passante VRAM, donc evidemment la RTX 5090 avec son bus hyper large et sa GDDR7 caracole en tete.

    Ceci dit, comme dit Edenar, le plus important c'est d'avoir suffisament de VRAM pour que le modele tienne entierement dedans, sinon il y a offloading vers le CPU avec un ecroulement des performances.

    D'autre part, 100 tokens par secondes, c'est deja extremement rapide donc suffisant pour une utilisation en amateur.

    Pour info j'utilise actuellement un modele Falcon 180B qui pese environ 120Go, avec une vitesse de moins d'un token par seconde, donc le plus important pour moi est d'avoir le max de VRAM pour pouvoir y charger le plus grand pourcentage possible du modele.

    Les perfs pures en I.A. de la carte graphique, ca reste un parametre secondaire

2 commentaires

Laissez votre commentaire

En réponse à Some User