Avec DeepSeek, la Chine a prouvé que du jus de cerveau bien employé pouvait passer outre une partie des restrictions techniques liées à la guerre commerciale américaine, au grand dam du pays de Trump. En effet, la prouesse d’entraîner un réseau capable de rivaliser — voire de surpasser — les ténors du genre est, en soit, impressionnante ; mais là n’est pas la seule étape dans la mise en production d’un nouvel algorithme d’IA : la firme doit désormais pouvoir le déployer sur un maximum d’appareils. Et, en raison de sa taille « restreinte » (671 milliards de paramètres, contre une estimation à un peu moins de 2 trillions pour ChatGPT 4) et de sa décomposition en six sous-modèles de taille plus raisonnable (de 1,5 à 70 milliards de paramètres), son utilisation est possible sur des cartes graphiques grand public… voire des iGPU, à condition d’optimiser correctement la chose.
Ni une, ni deux, AMD et NVIDIA se sont retrouvés dans le même bateau à chercher à faire mouliner le dernier modèle en date, DeepSeek-R1 (lancé le 20 janvier dernier), sur leur matériel respectif. Neuf jours plus tard, les rouges ouvraient le bal avec un post sur leur blog expliquant la marche à suivre pour les cartes Radeon ainsi que les Ryzen AI de la firme, le tout en passant par le logiciel LMStudio. Selon le GPU et la VRAM/RAM (dans le cas des iGPU), vous serez limités au niveau la taille du sous-modèle : le plus gros, DeepSeek-R1-Distill-Llama-70B
, requiert par exemple pas moins de 64 Gio de RAM ! Fort heureusement, des modèles plus petits comme le DeepSeek-R1-Distill-Llama-8B
sont compatibles dès la RX 7600 : de quoi vous permettre de tester le bousin par lui-même.
AMD illustre même la chose en vidéo
Chez NVIDIA, la réponse est arrivée le surlendemain, cette fois-ci en s’axant sur la rapidité des cartes. Sans surprise, l’inférence met à contribution les Tensors Cores, montrant ainsi leur suprématie technique sur la RTX 4090 et 5090 par rapport à RDNA 3. Une comparaison certes biaisée, puisque les rouges n’ont pas encore dévoilé leur propre nouvelle génération — qui se murmure être bien plus performante à ce niveau —, mais qui demeure de bonne guerre puisque, à l’heure actuelle, seule CDNA et les Radeon MI professionnelles sont capables de rivaliser… quand l’écosystème logiciel le permet. Dans notre cas, NVIDIA annonce une compatibilité avec Llama.cpp, Ollama, LMStudio, AnythingLLM, Jan.AI, OpenWebUI ainsi que Unsloth pour raffiner le modèle sur des données déjà en votre possession.
NVIDIA est plutôt dans les graphiques pour montrer la supériorité de sa solution
Sans surprise, les mesures du caméléon placent les cartes vertes en pole position avec un facteur 2 en performance entre la RX 7900 XTX et la RTX 5090, en partie grâce à une restriction agressive de la précision en se basant sur des entiers 4-bit.
La bataille est lancée, et le modèle encore très jeune : aucun de ces nombres n’est donc encore définitif… et le débit proposé, de l’ordre de la centaine de tokens par seconde pour le modèle le plus rapide, permet déjà de tester confortablement la chose chez soi. Niveau confidentialité, nous apprécions ! À voir comment la chose évolue, ainsi que les intégrations possibles dans des logiciels existants.
Attention, les modèles cités (de 1.5 à 70 milliards de paramètres) n'ont rien à voir avec le modèle original. Ce sont d'autre modèles (Llama celui de méta et qwen celui d'alibaba) ré-entrainés avec les sortie de deepseek R1.
Les seules versions "light" de deepseek sont celles ci à ma connaissance : https://unsloth.ai/blog/deepseekr1-dynamic
Bien sûr avec un impact plus ou moins important sur les résultats.