De algemene aanname bij de ontwikkeling van AI is duidelijk: grotere modellen die op meer data zijn getraind, zullen betere resultaten opleveren. Nvidia’s nieuwste release daagt deze aannames over de omvang direct uit – en de trainingsrecepten daarachter zijn mogelijk belangrijker voor de AI-teams van het bedrijf dan de modellen zelf. Cascade RL post-training pijplijn open gewichtsmodel, gedetailleerd in het technische rapport van Nvidiabiedt een reproduceerbare blauwdruk voor bedrijfsteams die domeinspecifieke redeneersystemen bouwen zonder helemaal opnieuw te hoeven trainen.
Nemotron-Cascade 2 is een open-gewogen 30B Mixture-of-Experts (MoE)-model dat alleen de 3B-parameters activeert tijdens de inferentietijd. Ondanks zijn compacte voetafdruk behaalde hij gouden medailles in drie van ’s werelds meest veeleisende competities: de Internationale Wiskunde Olympiade (IMO) van 2025, de Internationale Olympiade in Informatica (IOI) en de ICPC Wereldfinale. Dit is het tweede open model dat dit niveau bereikt, na DeepSeek-V3.2-Speciale – een model met 20 keer meer parameters.
Waarom post-training een echt concurrentievoordeel is
Het vooraf trainen van grote taalmodellen is extreem duur – variërend van tientallen tot misschien wel honderden miljoenen dollars voor grensmodellen. De Nemotron-Cascade 2 vertrekt van hetzelfde basismodel als Nvidia’s bestaande Nemotron-3-Nano – maar presteert beter dan dat model in bijna alle benchmarks, en in veel gevallen beter dan Nvidia’s eigen Nemotron-3-Super, een model met vier keer zoveel actieve parameters, volgens het technische rapport van Nvidia. Het verschil ligt volledig in het recept na de training.
Hier is een strategisch inzicht voor ondernemingsteams: u hebt geen groter of duurder basismodel nodig. Het kan zijn dat je een beter trainingstraject nodig hebt dan het traject dat je al hebt. Cascade RL en MOPD vertegenwoordigen een specifieke en reproduceerbare benadering van het probleem.
Cascade RL legt uit: sequentiële domeintraining die catastrofaal vergeten voorkomt
Versterkend leren (RL) is de dominante techniek geworden voor het aanleren van LLM-redeneren. De uitdaging is dat het tegelijkertijd trainen van modellen in meerdere domeinen – wiskunde, code, het volgen van instructies, agenttaken – vaak tot interferentie leidt. Het verbeteren van de prestaties in het ene domein zal de prestaties in andere domeinen verminderen. Dit is een enorm vergeetprobleem, een al lang gedocumenteerde uitdaging bij multi-task machine learning.
RL-cascade pakt dit aan door RL-fasen opeenvolgend te trainen, domein voor domein, in plaats van ze allemaal te combineren. Nemotron-Cascade 2 volgt een specifieke volgorde: eerst instructievolgende RL, vervolgens multi-domein RL (die STEM-vragen, tooloproepen en gestructureerde output omvat), dan op beleid gebaseerde destillatie, dan RLHF voor afstemming van menselijke voorkeuren, dan RL met lange context, dan code-RL en ten slotte software-engineering RL.
Volgens het technische rapport van Nvidia zijn er drie eigenschappen die deze aanpak praktisch maken. Ten eerste blijken domeinspecifieke RL-fasen bestand te zijn tegen catastrofaal vergeten: codetraining verslechtert zelden de wiskundige prestaties, en verbetert deze in sommige gevallen zelfs. Ten tweede kunnen, omdat elke fase op een enkel domein wordt getraind, de hyperparameters en het trainingscurriculum worden afgestemd op de specifieke kenmerken van dat domein, waardoor over het geheel genomen beter kan worden geleerd. Ten derde is computationeel gebruik veel efficiënter dan training in gemengde domeinen, omdat antwoorden in één domein doorgaans dezelfde lengte en dezelfde verificatiekosten hebben.
De volgorde zelf staat niet vast; het hangt af van het gedrag van het model. Het Nemotron-Cascade 2-team ontdekte dat het volgen van instructies op de eerste plaats moet komen (omdat dit in strijd kan zijn met de afstemming van menselijke voorkeuren, die later kan worden hersteld), terwijl code-RL en software-engineering-RL het beste werken in de late stadia, aldus het rapport.
Voor bedrijfsteams zijn de implicaties duidelijk: als u RL toepast om modellen voor meerdere mogelijkheden te verbeteren, kan het opeenvolgend trainen van deze modellen met zorgvuldige sequencing betere resultaten opleveren dan wanneer u ze allemaal tegelijk traint.
MOPD: hergebruik je eigen trainingscheckpoints als docent
Zelfs met een zorgvuldige sequentiële volgorde zijn sommige prestatieafwijkingen onvermijdelijk wanneer het model vele RL-fasen doorloopt. De oplossing van Nvidia is Multidomeinbeleiddistillatie (MOPD) – een techniek die halverwege de Cascade RL-pijplijn is ingevoegd om de capaciteiten opnieuw in evenwicht te brengen.
Deze aanpak werkt als volgt: Naarmate het model verschillende RL-fasen doorloopt, worden sommige tussenliggende controlepunten de best presterende versie voor een bepaald domein. Wiskundige controlepunten zijn mogelijk het sterkst na SFT; de instructie die volgt op het controlepunt kan de sterkste zijn na IF-RL. MOPD selecteert voor elk domein de beste tussenliggende controlepunten en gebruikt deze als ‘leraren’ om kennis terug te filteren in het studentenmodel.
Het belangrijkste is dat deze leraren geen externe modellen zijn. Ze komen uit dezelfde opleiding, delen dezelfde tokenizer en architectuur. Dit elimineert distributie-mismatch-problemen die optreden bij het destilleren van totaal verschillende modelfamilies.
Volgens het technische rapport van Nvidia werkt MOPD op tokenniveau in plaats van op sequentieniveau, waardoor het veel efficiënter is bij het nemen van monsters dan RL met resultaatgebaseerde beloningen (GRPO, enz.). Het Nvidia-team rapporteerde dat MOPD op de AIME 2025-wiskundebenchmark de prestaties op leraarniveau herstelde in 30 optimalisatiestappen, terwijl standaard GRPO (Group Relative Policy Optimization) meer stappen vereiste om een lagere score te behalen. Op de ArenaHard-benchmark voor het afstemmen van menselijke voorkeuren behaalde MOPD 85,5 op het harde commando in 52 stappen, versus 80,7 in de 160 stappen van RLHF.
De benchmarkbeschrijving: dominant in redenering, eerlijk in afwegingen
De resultaten van benchmarks die intensief redeneren gebruiken, zijn verrassend. Op LiveCodeBench v6een problematische coderingsbenchmark van concurrerende programmeerplatforms, de Nemotron-Cascade 2 scoorde 87,2 – bovenaan de Qwen3.5-35B-A3B (74,6), Qwen3.5-397B-A17B (83,6) en zelfs de Kimi-K2.5-1T (85,0). Op HMMT februari 2025een maatstaf voor rigoureuze wiskundige concurrentie, de score van 94,6 was nek-aan-nek met modellen die vele malen groter waren dan deze. Op Hard Arena v2 De uitlijningskwaliteit bereikt een score van 83,5, veel beter dan die van concurrenten in zijn klasse. Door de geïntegreerde redenering van de tool in te schakelen, verbeterden de prestaties van AIME 2025 tot 98,6. Alle benchmarkscores worden door Nvidia zelf gerapporteerd en zijn niet onafhankelijk geverifieerd.
Het technische rapport is ook eerlijk over de zwakke punten ervan. Het model presteerde slechter dan Qwen3.5-35B-A3B op kennisintensieve benchmarks zoals MMLU-Pro (79,8 versus 85,3) en GPQA-Diamond (76,1 versus 84,2), evenals op sommige agentbenchmarks zoals BFCL v4 en τ²-Bench. De auteurs merken expliciet op dat kennisintensieve vooropleiding en robuustere agent-RL nodig zijn in toekomstig werk.
Deze eerlijkheid is belangrijk voor beoefenaars. Het model is geoptimaliseerd voor diepgaande redenering en het volgen van instructies – niet voor het ophalen van algemene kennis of complexe interacties met meerdere agenten. Teams moeten evalueren op basis van hun specifieke gebruiksscenario’s en niet uitgaan van algemene superioriteit.
Wat zakelijke AI-teams uit dit recept kunnen halen
Sommige ontwerppatronen uit dit werk kunnen rechtstreeks worden toegepast op de inspanningen van een bedrijf na de training. Sequentiële domeinsequencing in Cascade RL betekent dat teams nieuwe mogelijkheden kunnen toevoegen zonder de hele pijplijn opnieuw op te bouwen – een belangrijke eigenschap voor organisaties die snel moeten itereren. De MOPD-aanpak waarbij gebruik wordt gemaakt van tussenliggende controlepunten als domeinspecifieke leraren elimineert de behoefte aan dure externe lerarenmodellen; teams kunnen hun eigen best presterende snapshots filteren.
De trainingsinstellingen zijn ook belangrijk: Cascade RL gebruikt GRPO met strikte beleidstraining en geen TOS-boetes via Nvidia open source Nemo-RL-opslagplaats. Voor RL-code gebruikt de pijplijn slechts 3.500 harde en gefilterde problemen.
Het grotere geheel: intelligentiedichtheid als ontwerpprincipe
Nemotron-Cascade 2 maakt deel uit van een bredere trend in de richting van ‘intelligentiedichtheid’ – waarbij maximale mogelijkheden per actieve parameter worden geëxtraheerd. Het MoE-model van DeepSeek, de A3B-variant van Qwen en nu de Cascade-serie van Nvidia wijzen allemaal op een toekomst waarin het meest capabele redeneermodel niet noodzakelijkerwijs het beste is.
Voor implementatie in bedrijven is dit van groot belang. Modellen met actieve parameters van 3B kunnen tegen lagere kosten en latentie worden geleverd dan modellen met een dichtheid van 70B. De resultaten van Nvidia laten zien dat post-trainingstechnieken zoals Cascade RL en MOPD de prestatiekloof in gerichte domeinen kunnen dichten, waardoor organisaties een pad krijgen naar het inzetten van krachtige redeneermogelijkheden zonder de kosten van front-endinfrastructuur.
De open vraag is in hoeverre deze aanpak kan worden veralgemeend. Cascade RL werkt goed voor domeinen met verifieerbare beloningen: wiskunde heeft correcte antwoorden, code heeft testgevallen en de volgende instructies hebben op regels gebaseerde controles. Dit uitbreiden naar meer open bedrijfstaken, waarbij verificatie dubbelzinnig is, blijft een actieve onderzoeksuitdaging. Voor teams die systemen bouwen die diep nadenken vereisen over gestructureerde problemen – financiële modellering, wetenschappelijk computergebruik, software-engineering, compliance-analyse – biedt Nvidia’s technische rapport een van de meer gedetailleerde post-trainingsmethodologieën die tot nu toe zijn gepubliceerd.


