Onderzoekers van Nvidia hebben een techniek ontwikkeld die de geheugenkosten voor het redeneren van grote taalmodellen tot achtvoudig kan verminderen. Hun techniek heet dynamische geheugensparsificatie (DMS), comprimeert de sleutelwaardecache (KV), tijdelijk geheugen gegenereerd en opgeslagen door LLM bij het verwerken van instructies en redenen via problemen en documenten.
Hoewel onderzoekers al eerder verschillende methoden hebben voorgesteld om deze caches te comprimeren, hebben de meeste moeite om dit te doen zonder de intelligentie van het model aan te tasten. De aanpak van Nvidia slaagt erin een groot deel van de cache te verwijderen, terwijl de redeneermogelijkheden van het model behouden blijven (en in sommige gevallen worden verbeterd).
Experimenten tonen aan dat DMS LLM in staat stelt langer na te denken en meer oplossingen te verkennen zonder de gebruikelijke boetes in termen van snelheid of geheugenkosten.
Knelpunt redenering
LLM verbetert hun prestaties bij complexe taken door “reeks gedachten“-tokens, waarbij ze in essentie hun redeneerstappen opschrijven voordat ze tot een definitief antwoord komen. Inferentietijdschalingstechnieken profiteren hiervan door het model een groter budget te geven om deze gedachtetokens te genereren of om meerdere potentiële redeneerpaden parallel te verkennen.
Deze fijnmazige redenering brengt echter aanzienlijke rekenkosten met zich mee. Naarmate het model meer tokens genereert, zal het een KV-cache.
Voor toepassingen in de echte wereld is de KV-cache een groot knelpunt. Naarmate de redeneringsketen groeit, groeit de cache lineair, waardoor een grote hoeveelheid geheugen op de GPU in beslag wordt genomen. Dit dwingt de hardware om meer tijd te besteden aan het lezen van gegevens uit het geheugen dan aan computergebruik, waardoor de generatie wordt vertraagd en de latentie toeneemt. Dit beperkt ook het aantal gebruikers dat het systeem tegelijkertijd kan bedienen, omdat een tekort aan VRAM ervoor zorgt dat het systeem crasht of langzamer gaat werken.
Nvidia-onderzoekers beschouwen dit niet alleen als een technisch obstakel, maar ook als een fundamenteel economisch obstakel voor het bedrijf.
“De vraag gaat niet alleen over de hoeveelheid hardware; het gaat erom of uw infrastructuur 100 redeneringen of 800 threads voor dezelfde kosten verwerkt”, vertelde Piotr Nawrot, Senior Deep Learning Engineer bij Nvidia, aan VentureBeat.
Eerdere pogingen om dit probleem op te lossen waren gericht op op heuristieken gebaseerde benaderingen. Deze methode maakt gebruik van strenge regels, zoals een ‘schuifvenster’ dat alleen de meest recente tokens in de cache opslaat en de rest verwijdert. Hoewel dit het geheugengebruik vermindert, dwingt het het model vaak om belangrijke informatie die nodig is om het probleem op te lossen, weg te gooien, waardoor de nauwkeurigheid van de uitvoer afneemt.
“Standaard uitzettingsmethoden proberen oude en ongebruikte tokens te selecteren voor uitzetting met behulp van heuristieken”, aldus de onderzoekers. “Ze vereenvoudigen het probleem, in de hoop dat als ze dichter bij de interne mechanismen van het model komen, het antwoord nog steeds correct zal zijn.”
Andere oplossingen maken gebruik van paging om ongebruikte delen van de KV-cache naar langzamer geheugen te verplaatsen, maar de constante uitwisseling van gegevens brengt latentie-overhead met zich mee, waardoor real-time applicaties traag worden.
Dynamische geheugenafstand
DMS hanteert een andere aanpak door de bestaande LLM te ‘harden’ om zijn eigen geheugen op intelligente wijze te beheren. In plaats van vaste regels toe te passen over wat er moet worden verwijderd, traint DMS een model om te identificeren welke tokens belangrijk zijn voor toekomstige overwegingen en welke kunnen worden weggegooid.
“Het gokt niet alleen naar het belang; het leert beleid dat expliciet de verdeling van de uiteindelijke output van het model behoudt”, zei Nawrot.
Dit proces zet standaard, vooraf getrainde LLM’s zoals Llama 3 of Qwen 3 om in zelfcompressiemodellen. Het belangrijkste is dat dit niet vereist dat het model helemaal opnieuw hoeft te worden getraind, wat erg duur zou zijn. In plaats daarvan hergebruikt DMS bestaande neuronen in de aandachtslaag van het model om voor elk token een ‘retain’- of ‘exclude’-signaal te genereren.
Voor teams die zich zorgen maken over de complexiteit van de retrofit, merken de onderzoekers op dat het proces is ontworpen om lichtgewicht te zijn. “Om de efficiëntie van dit proces te vergroten, kunnen de modelgewichten worden bevroren, waardoor het proces vergelijkbaar wordt met Low-Rate Adaptation (LoRA)”, zegt Nawrot. Dit betekent dat standaard bedrijfsmodellen zoals de Qwen3-8B “binnen enkele uren met DMS kunnen worden geïnstalleerd op één DGX H100.”
Een belangrijk onderdeel van DMS is een mechanisme dat ‘uitgestelde uitzetting’ wordt genoemd. Als een token bij standaard sparsificatie onbelangrijk wordt geacht, wordt het onmiddellijk verwijderd. Dit is riskant omdat het model een fractie van een seconde nodig heeft om de context van het token in zijn huidige staat te integreren.
DMS verzacht dit door tokens te markeren voor vrijgave, maar blijft gedurende een korte periode toegankelijk (bijvoorbeeld een paar honderd stappen). Door deze vertraging kan het model de resterende noodzakelijke informatie uit het token ‘extraheren’ en deze in de huidige context opnemen voordat het token uit de KV-cache wordt verwijderd.
“Het ‘uitgestelde uitzettings’-mechanisme is van cruciaal belang omdat niet alle tokens eenvoudigweg ‘belangrijk’ (voor altijd bewaard) of ‘nutteloos’ (onmiddellijk verwijderd) zijn. Velen vallen ergens tussenin – ze bevatten wat informatie, maar niet genoeg om alle slots in het geheugen te vullen, ‘zei Nawrot. “Dit is waar de redundantie ligt. Door deze tokens korte tijd in een lokaal venster op te slaan voordat ze worden uitgegeven, stellen we het model in staat ze te verwerken en de informatie opnieuw te distribueren naar toekomstige tokens.”
De onderzoekers ontdekten dat dit retrofitproces zeer efficiënt was. Ze waren in staat om een vooraf getrainde LLM uit te rusten met DMS in slechts 1.000 trainingsstappen, slechts een fractie van de hoeveelheid rekenwerk die nodig was voor de initiële training. De resulterende modellen maken gebruik van standaardkernels en kunnen rechtstreeks worden ingevoegd in bestaande krachtige inferentiestapels zonder de noodzaak om speciale hardware of complexe software te herschrijven.
DMS in actie
Om de techniek te valideren, pasten de onderzoekers DMS toe op verschillende redeneringsmodellen, waaronder de Qwen-R1-serie (gedestilleerd uit DeepSeek R1) en Llama 3.2, en testten ze deze op zware benchmarks zoals AIME 24 (wiskunde), GPQA Diamond (wetenschap) en LiveCodeBench (codering).
De resultaten laten zien dat DMS effectief de Pareto-grens drijft, dat wil zeggen de optimale afweging tussen kosten en prestaties. Op de AIME 24 wiskundebenchmark behaalde het met DMS uitgeruste Qwen-R1 32B-model een score die 12,0 punten hoger was dan het standaardmodel, wanneer beperkt tot hetzelfde geheugenbandbreedtebudget. Door de cache te comprimeren, kan het model dieper en breder ‘denken’ dan een standaardmodel voor hetzelfde geheugen en rekenbudget.
Misschien wel het meest verrassend is dat DMS de algemene overtuiging in twijfel trekt dat compressie schadelijk is voor het begrijpen van lange contexten. In de ‘naald in een hooiberg’-test, die het vermogen van een model meet om specifieke informatie te vinden die verborgen zit in een groot document, presteerde de DMS-variant feitelijk beter dan het standaardmodel. Door het geheugen actief te beheren in plaats van passief ruis te verzamelen, behoudt het model een schonere en nuttiger context.
Voor bedrijfsinfrastructuur vertaalt verhoogde efficiëntie zich rechtstreeks in doorvoer- en hardwarebesparingen. Omdat de geheugencache veel kleiner is, besteedt de GPU minder tijd aan het ophalen van gegevens, waardoor de wachttijden voor gebruikers worden verkort. Bij het testen met het Qwen3-8B-model kwam DMS overeen met de nauwkeurigheid van het vanillemodel, terwijl het een tot 5x hogere doorvoer leverde. Dit betekent dat één server vijf keer zoveel klantverzoeken per seconde kan verwerken zonder kwaliteitsverlies.
De toekomst van herinneringen
Nvidia heeft DMS als onderdeel ervan uitgebracht KVPress-bibliotheek. Wat betreft de manier waarop bedrijven met DMS aan de slag kunnen, benadrukt Nawrot dat de toetredingsdrempels laag zijn. “De ‘minimaal levensvatbare infrastructuur’ is een standaard Hugging Face-pijplijn – er is geen aangepaste CUDA-kernel vereist”, zei Nawrot, erop wijzend dat de code volledig compatibel is met de standaard FlashAttention.
In de toekomst beschouwt het team DMS als onderdeel van een grotere verschuiving waarbij geheugenbeheer een aparte, intelligente laag van AI wordt. Nawrot bevestigde ook dat DMS “volledig compatibel” is met de nieuwe architectuur Latente aandacht met meerdere hoofden (MLA), gebruikt in het DeepSeek-model, laat zien dat het combineren van deze benaderingen kan resulteren in grotere efficiëntiewinsten.
Naarmate bedrijven overstappen van eenvoudige chatbots naar complexe agentsystemen die een bredere denkwijze vereisen, worden de gevolgtrekkingskosten een groot probleem. Technieken zoals DMS bieden een manier om deze mogelijkheden voortdurend te verbeteren.
“We hebben nog maar net de oppervlakte bereikt van wat mogelijk is,” zei Nawrot, “en we verwachten dat de schaalvergroting van de gevolgtrekkingstijd zal blijven evolueren.”



