Chargement des cours...
Nvidia déploie le Nemotron 3 Super : un modèle d'IA de 120 milliards de paramètres pour des charges de travail avancées
Technologie

Nvidia déploie le Nemotron 3 Super : un modèle d'IA de 120 milliards de paramètres pour des charges de travail avancées

Cryptahiti Team
4 min
Publicité

Nvidia lance Nemotron 3 Super, un modèle hybride de 120 milliards de paramètres optimisé pour les agents d'IA avec un coût de calcul réduit.

Nvidia déploie le Nemotron 3 Super : un modèle d'IA de 120 milliards de paramètres pour des charges de travail avancées

Une avancée significative dans l'IA générative

Nvidia a récemment mis sur le marché le Nemotron 3 Super, un modèle d'intelligence artificielle (IA) hybride doté de 120 milliards de paramètres, conçu spécifiquement pour réduire les coûts de calcul liés à l'exploitation d'agents d'IA à grande échelle. En s'appuyant sur une architecture innovante, ce modèle offre des gains de performance remarquables, faisant ainsi avancer le domaine de l’IA générative. Avec un mécanisme qui active uniquement 12,7 milliards de paramètres lors de chaque passage à l’inférence, le Nemotron 3 Super répond directement à deux défis majeurs : le coût accru des chaînes de raisonnement prolongées et l’augmentation exponentielle de l'utilisation de tokens, qui peut multiplier la demande par 15 dans des pipelines multi-agents.

Une architecture optimisée pour les performances

Le Nemotron 3 Super se distingue par son architecture hybride Mamba-Transformer, organisée sur 88 couches. Les blocs Mamba-2 permettent de gérer de longues séquences avec une efficacité linéaire, tandis que les couches d’attention Transformer garantissent une mémoire précise. Cela permet au modèle de supporter nativement des fenêtres de contexte pouvant atteindre un million de tokens, sans les pénalités de mémoire souvent associées aux conceptions purement basées sur l'attention. Un système de routage LatentMoE innovant a également été intégré, compressant les embeddings de tokens dans un espace à faible dimension avant de les transmettre à 512 experts par couche, dont 22 sont activés simultanément. Nvidia affirme que ce système permet d’utiliser environ quatre fois plus d'experts à un coût d’inférence similaire par rapport aux démarches habituelles MoE, facilitant ainsi une spécialisation plus précise des tâches, comme la différenciation entre la logique Python et le traitement SQL au niveau des experts.

Optimisation et formation du modèle

Nvidia a formé le Nemotron 3 Super sur un impressionnant total de 25 trillions de tokens, répartis en deux phases. La première phase a utilisé 20 trillions de tokens de données diverses, tandis que la seconde a porté sur cinq trillions de tokens de haute qualité, spécifiquement optimisés pour les performances sur benchmarks. Une phase d'extension finale a permis d'élargir le contexte natif à un million de tokens. De plus, le modèle a bénéficié d'un affinage supervisé sur environ sept millions d'échantillons, combiné à un apprentissage par renforcement au sein de 21 environnements, avec plus de 1,2 million de simulations. Ces étapes ont permis au Nemotron 3 Super d’obtenir des résultats impressionnants lors des évaluations.

Résultats et performances impressionnantes

Lors des benchmarks, le Nemotron 3 Super a affiché des performances remarquables, obtenant un score de 83,73 sur MMLU-Pro, de 90,21 sur AIME25 et de 60,47 sur SWE-Bench via OpenHands. Sur PinchBench, il a atteint 85,6 %, le meilleur score enregistré parmi les modèles ouverts de sa catégorie. De plus, lors de l’évaluation sur des contextes longs, il a réalisé un score de 91,64 sur RULER 1M. En comparaison avec le GPT-OSS-120B, le Nemotron 3 Super présente un débit 2,2 fois supérieur et, face au Qwen3.5-122B-A10B, cette augmentation atteint même 7,5 fois. Nvidia annonce également une amélioration de plus de cinq fois le débit et jusqu'à deux fois la précision par rapport à la génération précédente du Nemotron Super.

Accès et développement du Nemotron 3 Super

Le modèle est entièrement ouvert sous la licence Nvidia Nemotron Open Model. Les points de contrôle dans les formats BF16, FP8 et NVFP4, ainsi que les données de pré-formation et d’échantillons post-formation, sont accessibles sur Hugging Face. L’inférence est prise en charge par divers services tels que Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure, et Coreweave, avec des options sur site disponibles via Dell Enterprise Hub et HPE. Les développeurs peuvent trouver des recettes de formation, des guides pour le fine-tuning et des livres de recettes pour l'inférence sur la plateforme NeMo, utilisant des outils comme vLLM, SGLang et TensorRT-LLM.

À propos de l'auteur

C
Cryptahiti Team Rédaction

La rédaction Cryptahiti couvre l'actualité crypto et blockchain en Polynésie française.

Restez informé des dernières actualités crypto

Découvrez d'autres articles et analyses sur les cryptomonnaies et la blockchain en Polynésie française.