Home Nieuws Nieuw open gewicht Nvidia Nemotron 3 super combineert drie verschillende architecturen om...

Nieuw open gewicht Nvidia Nemotron 3 super combineert drie verschillende architecturen om gpt-oss en Qwen te verslaan in doorvoer

Door

maart 12, 2026

Multi-agentsystemen, ontworpen om langetermijntaken uit te voeren, zoals software-engineering of cybersecurity-triage, kunnen tokenvolumes genereren die tot 15 keer groter zijn dan die van standaardchat, waardoor de kosteneffectiviteit van het afhandelen van bedrijfstaken in gevaar komt.

Maar nu probeert Nvidia dit probleem te helpen oplossen door release van Nemotron 3 Superhybride model met 120 miljard parameters, met daaraan bevestigde gewichten Knuffelend gezicht.

Door verschillende architecturale filosofieën te combineren – state space-modellen, transformatoren en het nieuwe ‘Latent’ expert mixed design – probeert Nvidia de gespecialiseerde diepgang te bieden die nodig is voor agent-workflows zonder de opgeblazenheid die kenmerkend is voor modellen voor compact redeneren, en dit alles is beschikbaar voor commercieel gebruik bij de meeste open gewichten.

Drievoudige hybride architectuur

De kern van de Nemotron 3 Super wordt gevormd door een verfijnde architectonische triade die geheugenefficiëntie combineert met nauwkeurig redeneren. Dit model maakt gebruik van een Ruggengraat van een Mamba-Transformer-hybridewaarin Mamba-2-lagen worden afgewisseld met strategische Transformer-aandachtslagen.

Om de implicaties voor de productie van een bedrijf te begrijpen, moeten we het probleem van de ‘naald in een hooiberg’ beschouwen. De Mamba-2-laag fungeert als een ‘fast travel’-snelwegsysteem en verwerkt het grootste deel van de reeksverwerking met lineaire tijdscomplexiteit. Hierdoor kan het model een zeer groot contextvenster van 1 miljoen tokens behouden zonder dat de voetafdruk van het KV-cachegeheugen explodeert. Modellen met een zuivere toestandsruimte worstelen echter vaak met associatieve herinnering.

Om dit aan te pakken heeft Nvidia Transformer-aandachtslagen strategisch ingevoegd als ‘globale ankers’, waardoor het model nauwkeurig specifieke feiten kon ophalen die diep in de codebase of stapels financiële rapporten verborgen waren.

Voorbij de ruggengraat introduceert het model Latente expertmix (LatentMoE). Traditionele Mixture-of-Experts (MoE)-ontwerpen routetokens naar experts in volledig verborgen dimensies, wat computationele knelpunten creëert naarmate het model schaalt. LatentMoE lost dit probleem op door tokens in een gecomprimeerde ruimte te projecteren voordat ze naar specialisten worden doorgestuurd.

Dankzij deze ‘expertcompressie’ kan het model vier keer zoveel specialisten raadplegen voor exact dezelfde rekenkosten. Deze details zijn van cruciaal belang voor agenten die in één klap moeten schakelen tussen Python-syntaxis, SQL-logica en conversatieredeneringen.

Een sneller model is Multi-Token Prediction (MTP). Terwijl het standaardmodel één toekomstig token voorspelt, voorspelt MTP meerdere toekomstige tokens tegelijkertijd. Het functioneert als een “ingebouwd conceptmodel”, waardoor native speculatieve decodering mogelijk is die tot 3x snellere kloksnelheid kan bieden voor gestructureerde generatietaken zoals code- of tooloproepen.

Blackwell-winsten

Voor het bedrijf is de belangrijkste technische sprong in de Nemotron 3 Super de optimalisatie voor het Nvidia Blackwell GPU-platform. Door native vooraf te trainen op NVFP4 (4-bit floating point), heeft Nvidia een doorbraak in productie-efficiëntie bereikt.

Op Blackwell levert het model vier keer snellere gevolgtrekkingen dan 8-bits modellen die op de vorige Hopper-architectuur draaien, zonder verlies aan nauwkeurigheid.

In zijn praktische prestaties is Nemotron 3 Super een speciaal hulpmiddel voor agentisch redeneren.

Momenteel bekleedt hij de nummer 1 op de DeepResearch Bench, een benchmark die het vermogen van AI meet om uitgebreid meerstapsonderzoek uit te voeren in grote documentcollecties.

Benchmarks	Nemotron 3 Super	Qwen3.5-122B-A10B	GPT-OSS-120B
Algemene kennis
MMLU-Pro	83,73	86,70	81.00 uur
Denken
AIME25 (geen gereedschap)	90.21	90.36	92,50
HMMT 25 februari (zonder gereedschap)	93,67	91.40	90.00 uur
HMMT 25 februari (met gereedschap)	94,73	89,55	—
GPQA (geen tools)	79.23	86.60	80.10
GPQA (met gereedschap)	82,70	—	80.09
LiveCodeBench (v5 07-2024↔2024-12)	81.19	78,93	88.00 uur
SciCode (subtaak)	42.05	42.00 uur	39.00 uur
HLE (geen gereedschap)	18.26	25.30 uur	14.90
HLE (met gereedschap)	22.82	—	19.0
Agent
Terminalbank (hard gedeelte)	25.78	26.80	24.00 uur
Core Bench-terminal 2.0	31.00 uur	37.50	18.70
SWE-bank (open handen)	60.47	66.40	41,9
SWE-bank (open code)	59.20	67.40	—
SWE-bank (Codex)	53,73	61.20	—
SWE-Bench Meertalig (Open Hand)	45,78	—	30.80
TauBench V2
Luchtvaartmaatschappij	56.25	66,0	49.2
Detailhandelaar	62,83	62,6	67,80
Telecommunicatie	64.36	95.00 uur	66.00 uur
Gemiddeld	61.15	74.53	61,0
Blader door Comp met zoeken	31.28	—	33.89
VOGEL bankje	41.80	—	38.25
Chat en instructies volgen
IFBench (snel)	72,56	73,77	68.32
Schaal AI Multi-uitdaging	55.23	61,50	58.29
Arena-Hard-V2	73,88	75.15	90.26
Lange context
AA-LCR	58.31	66,90	51.00 uur
HEERSER @ 256k	96.30	96,74	52.30 uur
HEERSER @ 512k	95,67	95,95	46.70
HEERSER @ 1M	91,75	91.33	22.30 uur
Meertalig
MMLU-ProX (gemiddelde lengte)	79.36	85.06	76,59
WMT24++ (id→xx)	86,67	87,84	88,89

Het laat ook aanzienlijke doorvoervoordelen zien, waarbij een tot 2,2x hogere doorvoer wordt bereikt vergeleken met gpt-oss-120B en 7,5x hoger dan Qwen3.5-122B bij hoge volume-instellingen.

De belangrijkste Nvidia Nemotron 3 Super benchmarkgrafiek. Nvidia

Speciale ‘open’ licentie — commercieel gebruik maar met belangrijke kanttekeningen

Nemotron 3 Super-release hieronder Nvidia Open Model-licentieovereenkomst (bijgewerkt in oktober 2025) biedt een tolerant raamwerk voor adoptie door bedrijven, hoewel er verschillende “beschermingsclausules” zijn die het onderscheiden van pure open source-licenties zoals MIT of Apache 2.0.

Belangrijkste termen voor zakelijke gebruikers:

Commercieel gebruik: De licentie vermeldt expliciet dat het model “commercieel mag worden gebruikt” en verleent een eeuwigdurende, wereldwijde, royaltyvrije licentie om producten op basis van het model te verkopen en distribueren.
Eigendom van output: Nvidia doet geen uitspraken over de output die door het model wordt geproduceerd; De verantwoordelijkheid voor die output – en het eigendom van die output – ligt volledig bij de gebruiker.
Afgeleide werken: Bedrijven zijn vrij om “afgeleide modellen” (aangepaste versies) te creëren en te bezitten, op voorwaarde dat dergelijke modellen de vereiste toeschrijvingskennisgevingen bevatten: “Gelicentieerd door Nvidia Corporation onder de Nvidia Open Model License.”

“Rode lijn”:

Deze licentie omvat twee belangrijke beëindigingstriggers die productieteams in de gaten moeten houden:

Veiligheidshek: De licentie wordt automatisch beëindigd als de gebruiker de “Guardrails” (technische beperkingen of hyperparameters van de beveiliging) van het model omzeilt of omzeilt zonder een “substantieel vergelijkbare” vervanging te implementeren die geschikt is voor de gebruikssituatie.
Triggers voor rechtszaken: Als een gebruiker een auteursrecht- of patentzaak aanspant tegen Nvidia en beweert dat het model inbreuk maakt op zijn IP, wordt zijn licentie om het model te gebruiken onmiddellijk beëindigd.

Deze structuur stelt Nvidia in staat een commercieel ecosysteem te ontwikkelen terwijl het zichzelf beschermt tegen “IP-trollen” en ervoor zorgt dat het model zijn beveiligingsfuncties niet verliest door kwaadwillig gebruik.

‘Het team is echt volwassen’

Deze release heeft voor veel buzz gezorgd binnen de ontwikkelaarsgemeenschap. Chris Alexiuk, Senior Product Research Engineer bij Nvidia, prees onder zijn toezicht de lancering van X @llm_wizard als “SUPER DAY”, waarbij de snelheid en transparantie van het model worden benadrukt. “Het model: SNEL. Het model: SLIM. Het model: HET MEEST OPEN MODEL DAT WE OOIT HEBBEN GEDAAN,” Chris plaatste een bericht waarin hij de vrijgave van niet alleen gewichten benadrukte, maar ook 10 biljoen tokens aan trainingsgegevens en recepten.

De adoptie door de industrie weerspiegelt het volgende enthousiasme:

Cloud en hardware: Dit model wordt geïmplementeerd als Nvidia NIM-microserviceswaardoor het op zijn plaats kan doorlopen Dell AI-fabriek of HPEevenals op Google Cloud, Oracle en later AWS en Azure.
Productieagent: Bedrijven zoals CodeBunny (softwareontwikkeling) en Griekenland integreert het model om grootschalige codebase-analyse uit te voeren, terwijl marktleiders er dol op zijn Siemens En Palantir pas het toe om complexe workflows in productie en cyberbeveiliging te automatiseren.

Zoals Kari Briski, Nvidia’s vice-president van AI Software, zei: “Terwijl bedrijven overstappen van alleen chatbots naar multi-agent-applicaties, worden ze geconfronteerd met… een explosie van context.”

De Nemotron 3 Super is Nvidia’s antwoord op de hausse: een model dat de ‘brain power’ van een 120B parametersysteem levert met de operationele efficiëntie van een veel kleinere specialist. Voor bedrijven is de boodschap duidelijk: de ‘denkbelasting’ wordt eindelijk verlaagd.

Nieuwsbron

Nieuw open gewicht Nvidia Nemotron 3 super combineert drie verschillende architecturen om gpt-oss en Qwen te verslaan in doorvoer

Drievoudige hybride architectuur

Blackwell-winsten

Speciale ‘open’ licentie — commercieel gebruik maar met belangrijke kanttekeningen

‘Het team is echt volwassen’

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Semenyo zet City vlak voor rust op voorsprong!

“De affiniteit van Jared Kushner loopt weg van de deal met Paramount-Warner Bros.” .

AI-agenten kunnen praten; orkestratie zorgt ervoor dat ze samenwerken

Voormalig Navy SEAL is van plan explosieven af te vuren op de politie tijdens...