Nvidia déploie le Nemotron 3 Super : un modèle d'IA de 120 milliards de paramètres pour des charges de travail avancées

Une avancée significative dans l'IA générative

Nvidia a récemment mis sur le marché le Nemotron 3 Super, un modèle d'intelligence artificielle (IA) hybride doté de 120 milliards de paramètres, conçu spécifiquement pour réduire les coûts de calcul liés à l'exploitation d'agents d'IA à grande échelle. En s'appuyant sur une architecture innovante, ce modèle offre des gains de performance remarquables, faisant ainsi avancer le domaine de l’IA générative. Avec un mécanisme qui active uniquement 12,7 milliards de paramètres lors de chaque passage à l’inférence, le Nemotron 3 Super répond directement à deux défis majeurs : le coût accru des chaînes de raisonnement prolongées et l’augmentation exponentielle de l'utilisation de tokens, qui peut multiplier la demande par 15 dans des pipelines multi-agents.

Une architecture optimisée pour les performances

Le Nemotron 3 Super se distingue par son architecture hybride Mamba-Transformer, organisée sur 88 couches. Les blocs Mamba-2 permettent de gérer de longues séquences avec une efficacité linéaire, tandis que les couches d’attention Transformer garantissent une mémoire précise. Cela permet au modèle de supporter nativement des fenêtres de contexte pouvant atteindre un million de tokens, sans les pénalités de mémoire souvent associées aux conceptions purement basées sur l'attention. Un système de routage LatentMoE innovant a également été intégré, compressant les embeddings de tokens dans un espace à faible dimension avant de les transmettre à 512 experts par couche, dont 22 sont activés simultanément. Nvidia affirme que ce système permet d’utiliser environ quatre fois plus d'experts à un coût d’inférence similaire par rapport aux démarches habituelles MoE, facilitant ainsi une spécialisation plus précise des tâches, comme la différenciation entre la logique Python et le traitement SQL au niveau des experts.

Optimisation et formation du modèle

Nvidia a formé le Nemotron 3 Super sur un impressionnant total de 25 trillions de tokens, répartis en deux phases. La première phase a utilisé 20 trillions de tokens de données diverses, tandis que la seconde a porté sur cinq trillions de tokens de haute qualité, spécifiquement optimisés pour les performances sur benchmarks. Une phase d'extension finale a permis d'élargir le contexte natif à un million de tokens. De plus, le modèle a bénéficié d'un affinage supervisé sur environ sept millions d'échantillons, combiné à un apprentissage par renforcement au sein de 21 environnements, avec plus de 1,2 million de simulations. Ces étapes ont permis au Nemotron 3 Super d’obtenir des résultats impressionnants lors des évaluations.

Résultats et performances impressionnantes

Lors des benchmarks, le Nemotron 3 Super a affiché des performances remarquables, obtenant un score de 83,73 sur MMLU-Pro, de 90,21 sur AIME25 et de 60,47 sur SWE-Bench via OpenHands. Sur PinchBench, il a atteint 85,6 %, le meilleur score enregistré parmi les modèles ouverts de sa catégorie. De plus, lors de l’évaluation sur des contextes longs, il a réalisé un score de 91,64 sur RULER 1M. En comparaison avec le GPT-OSS-120B, le Nemotron 3 Super présente un débit 2,2 fois supérieur et, face au Qwen3.5-122B-A10B, cette augmentation atteint même 7,5 fois. Nvidia annonce également une amélioration de plus de cinq fois le débit et jusqu'à deux fois la précision par rapport à la génération précédente du Nemotron Super.

Accès et développement du Nemotron 3 Super

Le modèle est entièrement ouvert sous la licence Nvidia Nemotron Open Model. Les points de contrôle dans les formats BF16, FP8 et NVFP4, ainsi que les données de pré-formation et d’échantillons post-formation, sont accessibles sur Hugging Face. L’inférence est prise en charge par divers services tels que Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure, et Coreweave, avec des options sur site disponibles via Dell Enterprise Hub et HPE. Les développeurs peuvent trouver des recettes de formation, des guides pour le fine-tuning et des livres de recettes pour l'inférence sur la plateforme NeMo, utilisant des outils comme vLLM, SGLang et TensorRT-LLM.

Nvidia déploie le Nemotron 3 Super : un modèle d'IA de 120 milliards de paramètres pour des charges de travail avancées

Nvidia déploie le Nemotron 3 Super : un modèle d'IA de 120 milliards de paramètres pour des charges de travail avancées

Une avancée significative dans l'IA générative

Une architecture optimisée pour les performances

Optimisation et formation du modèle

Résultats et performances impressionnantes

Accès et développement du Nemotron 3 Super

À propos de l'auteur

Table des matières

Articles suggérés

Ripple Renforce la Sécurité de l'XRPL pour un Avenir Post-Quantique

Les institutions financières japonaises adoptent la blockchain pour les obligations d'État

Rosalind d'OpenAI : un modèle IA prometteur pour la découverte de médicaments

Q-Day : la menace quantique sur Bitcoin expliquée

L'infrastructure blockchain : la vision révolutionnaire de Changpeng Zhao pour la finance mondiale

Le nouveau gouverneur de la Banque de Corée renforce les CBDC et les tokens de dépôt

Vanguard renforce sa position en Bitcoin via MSTR avec 195 millions $ supplémentaires

La stratégie de Michael Saylor : acquisition de 2,54 milliards de dollars en Bitcoin

Articles Similaires

Ripple Renforce la Sécurité de l'XRPL pour un Avenir Post-Quantique

Les institutions financières japonaises adoptent la blockchain pour les obligations d'État

Rosalind d'OpenAI : un modèle IA prometteur pour la découverte de médicaments

Restez informé des dernières actualités crypto