Enterprise AI-applicaties die grote documenten of langlopende taken verwerken, worden geconfronteerd met ernstige geheugenknelpunten. Naarmate de context toeneemt, neemt ook de KV-cache toe, namelijk de opslagruimte van het werkgeheugen van het model.
Een nieuwe techniek ontwikkeld door onderzoekers van MIT pakt deze uitdaging aan met een snelle compressiemethode voor KV-caches. De techniek heet Aandacht Matchingerin geslaagd om de context tot 50x te comprimeren met weinig kwaliteitsverlies.
Hoewel het niet de enige beschikbare techniek voor geheugencompressie is, valt Attention Matching op door zijn indrukwekkende uitvoeringssnelheid en mogelijkheden voor informatieopslag.
Knelpunt in het KV-cachegeheugen
Grote taalmodellen genereren hun antwoorden opeenvolgend, één token tegelijk. Om te voorkomen dat voor elk voorspeld woord de hele gespreksgeschiedenis vanaf het begin opnieuw moet worden berekend, slaat het model een wiskundige weergave op van elk eerder verwerkt token, ook wel een sleutel- en waardepaar genoemd. Dit belangrijke werkgeheugen staat bekend als de KV-cache.
De KV-cache schaalt mee met de lengte van het gesprek, omdat het model gedwongen wordt deze sleutels en waarden te behouden voor alle voorgaande tokens in een bepaalde interactie. Dit kost dure hardwarebronnen. “In de praktijk is KV-cachegeheugen het grootste knelpunt bij het bedienen van modellen in zeer lange contexten”, vertelde Adam Zweiger, een van de auteurs van het artikel, aan VentureBeat. “Dit beperkt de gelijktijdigheid, dwingt kleinere batches af en/of vereist een agressievere ontlading.”
In moderne bedrijfsgebruikssituaties, zoals het analyseren van grote juridische contracten, het onderhouden van klantdialogen over meerdere sessies of het uitvoeren van autonome codeeragenten, kan de KV-cache voor één gebruikersverzoek oplopen tot meerdere gigabytes aan geheugen.
Om deze grote hindernis te overwinnen heeft de AI-industrie verschillende strategieën geprobeerd, maar deze methoden falen wanneer ze worden toegepast in bedrijfsomgevingen die extreme compressie vereisen. De technische fixklasse omvat het optimaliseren van de KV-cache met een van deze tokens verwijderen modellen die als minder belangrijk worden beschouwd of die vergelijkbare tokens combineren tot één representatie. Deze technieken werken bij lichte compressie, maar “degraderen snel bij hoge reductieverhoudingen”, aldus de auteurs.
Toepassingen in de echte wereld zijn vaak afhankelijk van eenvoudigere technieken, waarbij de meest gebruikelijke aanpak is om de oude context te verwijderen zodra de geheugenlimiet is bereikt. Deze aanpak zorgt er echter voor dat het model oude informatie verliest naarmate de contextlengte toeneemt. Een ander alternatief is contextsamenvatting, waarbij het systeem pauzeert, een korte tekstsamenvatting van de oude context schrijft en het oorspronkelijke geheugen vervangt door de samenvatting. Hoewel het een industriestandaard is, is samenvatting zeer schadelijk en schaadt het de prestaties verderop in de keten ernstig, omdat het relevante informatie uit zijn context kan verwijderen.
Recent onderzoek heeft aangetoond dat het technisch mogelijk is om dit geheugen te overcomprimeren met behulp van een methode genaamd Cartridge. Deze aanpak vereist echter het trainen van een latent KV-cachemodel via langzame end-to-end wiskundige optimalisatie. Deze op gradiënten gebaseerde training kan op een dure GPU enkele uren duren om slechts één context te comprimeren, waardoor deze onbruikbaar wordt voor realtime bedrijfstoepassingen.
Hoe aandacht kosteloos overeenkomt met het kompres
Attention Matching bereikt een hoog niveau van compressieverhouding en kwaliteit, terwijl het sneller is dan op gradiënten gebaseerde optimalisatie. Het omzeilt een langzaam trainingsproces door slimme wiskundige trucs.
De onderzoekers realiseerden zich dat ze, om de interactie van een AI met zijn geheugen perfect na te bootsen, twee wiskundige eigenschappen moesten behouden en tegelijkertijd de oorspronkelijke sleutel- en waardevectoren tot een kleiner formaat moesten comprimeren. De eerste is ‘aandachtsoutput’, de feitelijke informatie die door de AI wordt geëxtraheerd wanneer deze zijn geheugen bevraagt. De tweede is de ‘aandachtsmassa’, die fungeert als het wiskundige gewicht dat een token heeft ten opzichte van al het andere in het werkgeheugen van het model. Als het gecomprimeerde geheugen aan deze twee eigenschappen kan voldoen, zal het zich precies hetzelfde gedragen als het oorspronkelijke, zeer grote geheugen, zelfs als er later nieuwe, onvoorspelbare gebruikersopdrachten worden toegevoegd.
“Attention Matching is in sommige opzichten het ‘juiste’ doel voor het uitvoeren van latente contextverdichting die direct gericht is op het behoud van het gedrag van elke aandachtskop na verdichting, ” zei Zweiger. Hoewel tokendropping en gerelateerde heuristieken kunnen werken, zal het expliciet matchen van aandachtsgedrag betere resultaten opleveren.
Voordat het geheugen wordt gecomprimeerd, genereert het systeem een kleine set ‘referentiequery’s’ die fungeren als proxy’s voor de soorten interne zoekopdrachten die het model zou kunnen uitvoeren bij het overwegen van een bepaalde context. Als het gecomprimeerde geheugen deze referentievragen nauwkeurig kan beantwoorden, zal het later waarschijnlijk succesvol zijn in het beantwoorden van de daadwerkelijke vragen van de gebruiker. De auteurs stellen verschillende methoden voor om deze referentiequery’s te genereren, waaronder het toevoegen van verborgen opdrachten aan documenten die het model vertellen de vorige context te herhalen, ook wel de ‘repeat-prefill’-techniek genoemd. Ze suggereren ook een “zelflerende” aanpak waarbij het model wordt gevraagd om enkele snelle synthetische taken op een document uit te voeren, zoals het combineren van alle belangrijke feiten of het samenvoegen van datums en cijfers in JSON-formaat.
Met deze vraag selecteert het systeem een set sleutels om op te slaan in de gecomprimeerde KV-cache op basis van signalen zoals de hoogste attentiewaarde. Vervolgens gebruikt het de sleutel- en referentiequery om de overeenkomende waarden te berekenen, samen met de scalaire bias-term. Deze bias zorgt ervoor dat gerelateerde informatie behouden blijft, zodat elke opgeslagen sleutel een groot aantal verwijderde sleutels kan vertegenwoordigen.
Deze formulering maakt het mogelijk waarden aan te passen met eenvoudige algebraïsche technieken, zoals gewone kleinste kwadraten en niet-negatieve kleinste kwadraten, waardoor rekenintensieve, op gradiënten gebaseerde optimalisatie volledig wordt vermeden. Dit is wat Attention Matching zo snel maakt in vergelijking met compressiemethoden die veel optimalisatie vereisen. De onderzoekers pasten ook afgeknotte compactie toe, waarbij aangrenzende stukken invoer onafhankelijk werden verwerkt en samengevoegd, om de prestaties in lange contexten verder te verbeteren.
Aandachtsmatching in actie
Om te begrijpen hoe deze methoden in de echte wereld presteren, voerden de onderzoekers een reeks stresstests uit met behulp van populaire open source-modellen zoals Llama 3.1 en Qwen-3 op twee verschillende soorten bedrijfsdatasets. De eerste is QuALITY, een gestandaardiseerde benchmark voor begrijpend lezen die documenten van 5.000 tot 8.000 woorden lang gebruikt. De tweede, die de echte uitdaging van het bedrijf vertegenwoordigt, is LongHealth, een zeer dichte dataset van 60.000 tokens die complexe medische dossiers van veel patiënten bevat.
De belangrijkste bevinding was dat Attention Matching de KV-cache van het model met 50x kon comprimeren zonder de nauwkeurigheid te verminderen, en dat het slechts een paar seconden duurde om documenten te verwerken. Om hetzelfde kwaliteitsniveau als voorheen te bereiken, hadden Cartridges urenlang intensief GPU-computing per context nodig.
Wanneer ze worden geconfronteerd met een dichte medische dossiers, falen standaardoplossingen in de industrie volledig. De onderzoekers merkten op dat toen ze probeerden een standaardtekstsamenvatting op deze patiëntendossiers te gebruiken, de nauwkeurigheid van het model zo laag daalde dat het overeenkwam met een ‘geen context’-basislijn, wat betekende dat de AI werkte alsof hij het document helemaal niet had gelezen.
Attention Matching presteert aanzienlijk beter dan samenvattingen, maar ondernemingsarchitecten moeten de compressieverhouding voor compacte taken verlagen in vergelijking met eenvoudigere tests voor begrijpend lezen. Zoals Zweiger uitlegt: “Het belangrijkste praktische nadeel is dat als je bijna alles probeert te behouden in de context van een zeer informatie-intensieve taak, je doorgaans een lichtere compressieverhouding nodig hebt om een sterke nauwkeurigheid te behouden.”
De onderzoekers onderzochten ook wat er gebeurt als absolute precisie niet vereist is, maar wel extreme geheugenbesparingen. Ze voeren Attention Matching uit bovenop standaardtekstsamenvattingen. Deze gecombineerde aanpak bereikt een compressie van 200x. Dit slaagt erin om de nauwkeurigheid van alleen standaardsamenvatting te evenaren, maar met een zeer kleine geheugenvoetafdruk.
Een interessant experiment voor de workflow van het bedrijf is het online testen van verdichting, hoewel ze opmerken dat dit een proof of concept is en niet rigoureus is getest in een productieomgeving. De onderzoekers testten het model op de AIME-test voor geavanceerd wiskundig redeneren. Ze dwingen AI om problemen op te lossen binnen strak beperkte fysieke geheugenlimieten. Elke keer dat het modelgeheugen vol raakt, pauzeert het systeem, comprimeert het werkgeheugen onmiddellijk met 50 procent met behulp van Attention Matching en laat het verder nadenken. Zelfs nadat het tegen de geheugenmuur aanliep en de KV-cache zes keer achter elkaar tijdens het nadenken kromp, slaagde het model erin het wiskundeprobleem op te lossen. De prestaties komen overeen met modellen die zijn uitgerust met een groot en onbeperkt geheugen.
Er zijn verschillende dingen waarmee u rekening moet houden. Met een compressieverhouding van 50x is Attention Matching de duidelijke winnaar in het balanceren van snelheid en kwaliteit. Als een onderneming echter probeert de compressie op zeer complexe gegevens tot de uiterste limiet van 100x te brengen, zal de langzamere, op gradiënten gebaseerde Cartridge-methode feitelijk betere prestaties opleveren.
Onderzoekers hebben vrijgegeven code voor Attention Matching. Ze merken echter op dat plug-and-play-software-updates momenteel niet eenvoudig zijn. “Ik denk dat latente verdichting het beste kan worden gezien als een modellaagtechniek”, zegt Zweiger. “Hoewel het kan worden toegepast op elk bestaand model, vereist het toegang tot de modelgewichten.” Dit betekent dat bedrijven die volledig afhankelijk zijn van gesloten API’s deze niet zelf kunnen implementeren; ze hebben een model met open gewicht nodig.
De auteurs merken op dat het integreren van deze latente ruimte-KV-verdichting in een sterk geoptimaliseerde commerciële inferentie-engine nog steeds aanzienlijke inspanningen vergt. De moderne AI-infrastructuur maakt gebruik van complexe trucs zoals prefix-caches en geheugenverpakking met variabele lengte om servers efficiënt te laten werken, en het naadloos implementeren van deze nieuwe compactietechnieken in bestaande systemen zal speciaal technisch werk vereisen. Er zijn echter ook directe bedrijfsapplicaties. “Wij geloven dat compactie na opname een veelbelovende use case is, waarbij grote uitvoer van toolcalls of lange documenten onmiddellijk na verwerking worden gecomprimeerd”, aldus Zweiger.
Uiteindelijk komt de verschuiving naar mechanische verdichting van de latente ruimte overeen met de toekomstige productroutekaarten van grote AI-spelers, aldus Zweiger. “We zien dat de verdichting zich verplaatst van iets dat door bedrijven wordt geïmplementeerd naar iets dat door modelaanbieders wordt aangeboden”, aldus Zweiger. “Dit geldt des te meer voor latente compactie, waarvoor toegang tot modelgewichten vereist is. OpenAI stelt nu bijvoorbeeld black box-compressie-eindpunten bloot die ondoorzichtige objecten retourneren in plaats van gewone tekstsamenvattingen.”



