Home Nieuws Nieuw open gewicht Nvidia Nemotron 3 super combineert drie verschillende architecturen om...

Nieuw open gewicht Nvidia Nemotron 3 super combineert drie verschillende architecturen om gpt-oss en Qwen te verslaan in doorvoer

1
0
Nieuw open gewicht Nvidia Nemotron 3 super combineert drie verschillende architecturen om gpt-oss en Qwen te verslaan in doorvoer

Multi-agentsystemen, ontworpen om langetermijntaken uit te voeren, zoals software-engineering of cybersecurity-triage, kunnen tokenvolumes genereren die tot 15 keer groter zijn dan die van standaardchat, waardoor de kosteneffectiviteit van het afhandelen van bedrijfstaken in gevaar komt.

Maar nu probeert Nvidia dit probleem te helpen oplossen door release van Nemotron 3 Superhybride model met 120 miljard parameters, met daaraan bevestigde gewichten Knuffelend gezicht.

Door verschillende architecturale filosofieën te combineren – state space-modellen, transformatoren en het nieuwe ‘Latent’ expert mixed design – probeert Nvidia de gespecialiseerde diepgang te bieden die nodig is voor agent-workflows zonder de opgeblazenheid die kenmerkend is voor modellen voor compact redeneren, en dit alles is beschikbaar voor commercieel gebruik bij de meeste open gewichten.

Drievoudige hybride architectuur

De kern van de Nemotron 3 Super wordt gevormd door een verfijnde architectonische triade die geheugenefficiëntie combineert met nauwkeurig redeneren. Dit model maakt gebruik van een Ruggengraat van een Mamba-Transformer-hybridewaarin Mamba-2-lagen worden afgewisseld met strategische Transformer-aandachtslagen.

Om de implicaties voor de productie van een bedrijf te begrijpen, moeten we het probleem van de ‘naald in een hooiberg’ beschouwen. De Mamba-2-laag fungeert als een ‘fast travel’-snelwegsysteem en verwerkt het grootste deel van de reeksverwerking met lineaire tijdscomplexiteit. Hierdoor kan het model een zeer groot contextvenster van 1 miljoen tokens behouden zonder dat de voetafdruk van het KV-cachegeheugen explodeert. Modellen met een zuivere toestandsruimte worstelen echter vaak met associatieve herinnering.

Om dit aan te pakken heeft Nvidia Transformer-aandachtslagen strategisch ingevoegd als ‘globale ankers’, waardoor het model nauwkeurig specifieke feiten kon ophalen die diep in de codebase of stapels financiële rapporten verborgen waren.

Voorbij de ruggengraat introduceert het model Latente expertmix (LatentMoE). Traditionele Mixture-of-Experts (MoE)-ontwerpen routetokens naar experts in volledig verborgen dimensies, wat computationele knelpunten creëert naarmate het model schaalt. LatentMoE lost dit probleem op door tokens in een gecomprimeerde ruimte te projecteren voordat ze naar specialisten worden doorgestuurd.

Dankzij deze ‘expertcompressie’ kan het model vier keer zoveel specialisten raadplegen voor exact dezelfde rekenkosten. Deze details zijn van cruciaal belang voor agenten die in één klap moeten schakelen tussen Python-syntaxis, SQL-logica en conversatieredeneringen.

Een sneller model is Multi-Token Prediction (MTP). Terwijl het standaardmodel één toekomstig token voorspelt, voorspelt MTP meerdere toekomstige tokens tegelijkertijd. Het functioneert als een “ingebouwd conceptmodel”, waardoor native speculatieve decodering mogelijk is die tot 3x snellere kloksnelheid kan bieden voor gestructureerde generatietaken zoals code- of tooloproepen.

Blackwell-winsten

Voor het bedrijf is de belangrijkste technische sprong in de Nemotron 3 Super de optimalisatie voor het Nvidia Blackwell GPU-platform. Door native vooraf te trainen op NVFP4 (4-bit floating point), heeft Nvidia een doorbraak in productie-efficiëntie bereikt.

Op Blackwell levert het model vier keer snellere gevolgtrekkingen dan 8-bits modellen die op de vorige Hopper-architectuur draaien, zonder verlies aan nauwkeurigheid.

In zijn praktische prestaties is Nemotron 3 Super een speciaal hulpmiddel voor agentisch redeneren.

Momenteel bekleedt hij de nummer 1 op de DeepResearch Bench, een benchmark die het vermogen van AI meet om uitgebreid meerstapsonderzoek uit te voeren in grote documentcollecties.

Benchmarks

Nemotron 3 Super

Qwen3.5-122B-A10B

GPT-OSS-120B

Algemene kennis

MMLU-Pro

83,73

86,70

81.00 uur

Denken

AIME25 (geen gereedschap)

90.21

90.36

92,50

HMMT 25 februari (zonder gereedschap)

93,67

91.40

90.00 uur

HMMT 25 februari (met gereedschap)

94,73

89,55

GPQA (geen tools)

79.23

86.60

80.10

GPQA (met gereedschap)

82,70

80.09

LiveCodeBench (v5 07-2024↔2024-12)

81.19

78,93

88.00 uur

SciCode (subtaak)

42.05

42.00 uur

39.00 uur

HLE (geen gereedschap)

18.26

25.30 uur

14.90

HLE (met gereedschap)

22.82

19.0

Agent

Terminalbank (hard gedeelte)

25.78

26.80

24.00 uur

Core Bench-terminal 2.0

31.00 uur

37.50

18.70

SWE-bank (open handen)

60.47

66.40

41,9

SWE-bank (open code)

59.20

67.40

SWE-bank (Codex)

53,73

61.20

SWE-Bench Meertalig (Open Hand)

45,78

30.80

TauBench V2

Luchtvaartmaatschappij

56.25

66,0

49.2

Detailhandelaar

62,83

62,6

67,80

Telecommunicatie

64.36

95.00 uur

66.00 uur

Gemiddeld

61.15

74.53

61,0

Blader door Comp met zoeken

31.28

33.89

VOGEL bankje

41.80

38.25

Chat en instructies volgen

IFBench (snel)

72,56

73,77

68.32

Schaal AI Multi-uitdaging

55.23

61,50

58.29

Arena-Hard-V2

73,88

75.15

90.26

Lange context

AA-LCR

58.31

66,90

51.00 uur

HEERSER @ 256k

96.30

96,74

52.30 uur

HEERSER @ 512k

95,67

95,95

46.70

HEERSER @ 1M

91,75

91.33

22.30 uur

Meertalig

MMLU-ProX (gemiddelde lengte)

79.36

85.06

76,59

WMT24++ (id→xx)

86,67

87,84

88,89

Het laat ook aanzienlijke doorvoervoordelen zien, waarbij een tot 2,2x hogere doorvoer wordt bereikt vergeleken met gpt-oss-120B en 7,5x hoger dan Qwen3.5-122B bij hoge volume-instellingen.

De belangrijkste Nvidia Nemotron 3 Super benchmarkgrafiek. Nvidia

Speciale ‘open’ licentie — commercieel gebruik maar met belangrijke kanttekeningen

Nemotron 3 Super-release hieronder Nvidia Open Model-licentieovereenkomst (bijgewerkt in oktober 2025) biedt een tolerant raamwerk voor adoptie door bedrijven, hoewel er verschillende “beschermingsclausules” zijn die het onderscheiden van pure open source-licenties zoals MIT of Apache 2.0.

Belangrijkste termen voor zakelijke gebruikers:

  • Commercieel gebruik: De licentie vermeldt expliciet dat het model “commercieel mag worden gebruikt” en verleent een eeuwigdurende, wereldwijde, royaltyvrije licentie om producten op basis van het model te verkopen en distribueren.

  • Eigendom van output: Nvidia doet geen uitspraken over de output die door het model wordt geproduceerd; De verantwoordelijkheid voor die output – en het eigendom van die output – ligt volledig bij de gebruiker.

  • Afgeleide werken: Bedrijven zijn vrij om “afgeleide modellen” (aangepaste versies) te creëren en te bezitten, op voorwaarde dat dergelijke modellen de vereiste toeschrijvingskennisgevingen bevatten: “Gelicentieerd door Nvidia Corporation onder de Nvidia Open Model License.”

“Rode lijn”:

Deze licentie omvat twee belangrijke beëindigingstriggers die productieteams in de gaten moeten houden:

  1. Veiligheidshek: De licentie wordt automatisch beëindigd als de gebruiker de “Guardrails” (technische beperkingen of hyperparameters van de beveiliging) van het model omzeilt of omzeilt zonder een “substantieel vergelijkbare” vervanging te implementeren die geschikt is voor de gebruikssituatie.

  2. Triggers voor rechtszaken: Als een gebruiker een auteursrecht- of patentzaak aanspant tegen Nvidia en beweert dat het model inbreuk maakt op zijn IP, wordt zijn licentie om het model te gebruiken onmiddellijk beëindigd.

Deze structuur stelt Nvidia in staat een commercieel ecosysteem te ontwikkelen terwijl het zichzelf beschermt tegen “IP-trollen” en ervoor zorgt dat het model zijn beveiligingsfuncties niet verliest door kwaadwillig gebruik.

‘Het team is echt volwassen’

Deze release heeft voor veel buzz gezorgd binnen de ontwikkelaarsgemeenschap. Chris Alexiuk, Senior Product Research Engineer bij Nvidia, prees onder zijn toezicht de lancering van X @llm_wizard als “SUPER DAY”, waarbij de snelheid en transparantie van het model worden benadrukt. “Het model: SNEL. Het model: SLIM. Het model: HET MEEST OPEN MODEL DAT WE OOIT HEBBEN GEDAAN,” Chris plaatste een bericht waarin hij de vrijgave van niet alleen gewichten benadrukte, maar ook 10 biljoen tokens aan trainingsgegevens en recepten.

De adoptie door de industrie weerspiegelt het volgende enthousiasme:

  • Cloud en hardware: Dit model wordt geïmplementeerd als Nvidia NIM-microserviceswaardoor het op zijn plaats kan doorlopen Dell AI-fabriek of HPEevenals op Google Cloud, Oracle en later AWS en Azure.

  • Productieagent: Bedrijven zoals CodeBunny (softwareontwikkeling) en Griekenland integreert het model om grootschalige codebase-analyse uit te voeren, terwijl marktleiders er dol op zijn Siemens En Palantir pas het toe om complexe workflows in productie en cyberbeveiliging te automatiseren.

Zoals Kari Briski, Nvidia’s vice-president van AI Software, zei: “Terwijl bedrijven overstappen van alleen chatbots naar multi-agent-applicaties, worden ze geconfronteerd met… een explosie van context.”

De Nemotron 3 Super is Nvidia’s antwoord op de hausse: een model dat de ‘brain power’ van een 120B parametersysteem levert met de operationele efficiëntie van een veel kleinere specialist. Voor bedrijven is de boodschap duidelijk: de ‘denkbelasting’ wordt eindelijk verlaagd.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in