Het verwerken van 200.000 tokens via een groot taalmodel is duur en traag: hoe langer de context, hoe sneller de kosten stijgen. Onderzoekers van de Tsinghua Universiteit en Z.ai hebben dat gedaan bouwde een techniek genaamd IndexCache waardoor tot 75% van de redundante berekeningen in het schaarse aandachtsmodel worden weggenomen, wat resulteert in een tot 1,82x snellere time-to-first token en 1,48x snellere generatiedoorvoer in dat contexttijdsbestek.
Deze techniek is van toepassing op modellen die de DeepSeek Sparse Attention-architectuur gebruiken, inclusief de nieuwste DeepSeek- en GLM-families. Dit kan het bedrijf helpen een snellere gebruikerservaring te bieden voor modellen op productieschaal en lange contexten, een mogelijkheid die is bewezen in voorlopige tests op het GLM-5-model met 744 miljard parameters.
DSA-knelpunt
Grote taalmodellen vertrouwen op een zelfaandachtsmechanisme, een proces waarbij het model de relatie berekent tussen elk token in zijn context en alle voorgaande tokens om het volgende token te voorspellen.
Zelfzorg heeft echter ernstige beperkingen. De computationele complexiteit schaalt kwadratisch met de reekslengte. Voor toepassingen die uitgebreide contextvensters vereisen (bijvoorbeeld het verwerken van grote documenten, meerstaps-workflows van agenten of lange gedachtegangen), leidt deze kwadratische schaalvergroting tot trage gevolgtrekkingssnelheden en aanzienlijke reken- en geheugenkosten.
Zeldzame aandacht biedt een principiële oplossing voor dit schaalprobleem. In plaats van de relatie tussen elk token en alle voorgaande tokens te berekenen, optimaliseert spaarzame aandacht het proces door elke query alleen de meest relevante subset van tokens te laten selecteren en verwerken.
Diepe zoekaandacht schaars (DSA) is een zeer efficiënte implementatie van dit concept, dat voor het eerst werd geïntroduceerd in DeepSeek-V3.2. Om te bepalen welke tokens het belangrijkst zijn, introduceert DSA een lichtgewicht ‘lightning indexing module’ op elke laag van het model. Deze indexer evalueert vooraf alle tokens en selecteert een klein aantal om te worden verwerkt door het belangrijkste aandachtsmechanisme. Door dit te doen, reduceert DSA de zware kernaandachtsberekening van kwadratisch naar lineair, waardoor het model dramatisch wordt versneld terwijl de uitvoerkwaliteit behouden blijft.
Maar de onderzoekers identificeerden een resterende zwakte: de DSA-indexer zelf werkt nog steeds met kwadratische complexiteit op elke laag. Hoewel indexers rekenkundig goedkoper zijn dan het hoofdaandachtsproces, neemt naarmate de contextlengte toeneemt de tijd die het model besteedt aan het uitvoeren van deze indexers toe. Dit vertraagt het model aanzienlijk, vooral tijdens de initiële “preload”-fase, wanneer opdrachten voor het eerst worden verwerkt.
Aandacht besparen met IndexCache
Om knelpunten in de indexering te overwinnen, ontdekte het onderzoeksteam belangrijke kenmerken van de manier waarop DSA-modellen gegevens verwerken. De door de indexer geselecteerde subset van belangrijke tokens blijft zeer stabiel terwijl de gegevens door opeenvolgende transformatorlagen bewegen. Empirische tests op het DSA-model laten zien dat aangrenzende lagen tussen 70% en 100% van de geselecteerde tokens delen.
Om te profiteren van deze redundantie over meerdere lagen, ontwikkelden de onderzoekers IndexCache. Deze techniek verdeelt de modellagen in twee categorieën. Een klein aantal volledige lagen (F) onderhouden hun indexeerders, evalueren actief tokens en selecteren de belangrijkste om in de cache te plaatsen. De andere laag wordt gedeeld (S), voert geen indexering uit en gebruikt de cache-index van de vorige dichtstbijzijnde F-laag opnieuw.
Tijdens de inferentie controleert het model alleen het laagtype. Als het laag F bereikt, wordt de nieuwe index berekend en in de cache opgeslagen. Als het laag S is, slaat het het berekenen en kopiëren van cachegegevens over.
Er zijn verschillende optimalisatietechnieken die proberen de aandachtsbarrière te overwinnen het comprimeren van de KV-cachewaar de berekende attentiewaarde wordt opgeslagen. In plaats van de geheugenvoetafdruk te verkleinen, zoals bij standaard KV-cachecompressie, valt IndexCache computationele knelpunten aan.
“IndexCache is geen traditionele KV-compressie of techniek voor het delen van caches”, vertelde Yushi Bai, een van de auteurs van het artikel, aan VentureBeat. “Het elimineert deze redundantie door indexen over de lagen heen te hergebruiken, waardoor de berekening wordt verminderd, en niet alleen de geheugenvoetafdruk. Het is een aanvulling op bestaande benaderingen en kan ermee worden gecombineerd.”
De onderzoekers ontwikkelden twee implementatiebenaderingen voor IndexCache. (Houd er rekening mee dat IndexCache alleen van toepassing is op modellen die de DSA-architectuur gebruiken, zoals de nieuwste DeepSeek-modellen en de nieuwste GLM-modelserie.)
Voor ontwikkelaars die werken met kant-en-klare DSA-modellen waarbij herscholing onmogelijk of te duur is, hebben ze een trainingsvrije methode ontwikkeld die vertrouwt op een algoritme voor ‘hebzuchtige laagselectie’. Door een kleine set kalibratiegegevens door het model te laten lopen, bepaalt het algoritme automatisch de optimale plaatsing van F- en S-lagen zonder enige gewichtsupdates. Empirisch bewijs toont aan dat het hebzuchtige algoritme 75% van de indexeerders veilig kan verwijderen en tegelijkertijd de downstream-prestaties van het oorspronkelijke model kan evenaren.
Voor teams die hun eigen basismodellen vooraf trainen of verfijnen, stellen de onderzoekers een trainingsbewuste versie voor die netwerkparameters optimaliseert om het delen tussen lagen te ondersteunen. Deze aanpak introduceert tijdens de training ‘meerlaagse destillatieverliezen’. Dit dwingt elke onderhouden indexeerder om te leren hoe hij een consensus-subset van tokens moet selecteren die het meest relevant zal zijn voor alle volgende lagen die hij bedient.
Real-world versnelling op productiemodellen
Om de impact van IndexCache te testen, pasten de onderzoekers het toe op 30 miljard parameters GLM-4.7 flitser model en vergelijk het met een standaardbasislijn.
Met een contextlengte van 200K vermindert het verwijderen van 75% van de indexer de latentie vóór het invullen van 19,5 seconden naar slechts 10,7 seconden, wat resulteert in een snelheidswinst van 1,82x. De onderzoekers merken op dat deze versnelling naar verwachting groter zal zijn in langere contexten.
Tijdens de decoderingsfase, terwijl het model zijn antwoorden genereert, verhoogt IndexCache de doorvoer per verzoek van 58 tokens per seconde naar 86 tokens per seconde bij de contextmarkering van 200k, wat resulteert in een versnelling van 1,48x. Wanneer het servergeheugen vol zit met verzoeken, stijgt de totale decoderingsdoorvoer naar 51%.
Voor ondernemingsteams vertalen deze grotere efficiëntie zich rechtstreeks in kostenbesparingen. “In termen van ROI biedt IndexCache consistente voordelen in alle scenario’s, maar de verbeteringen zijn het meest zichtbaar bij werklasten met een lange context, zoals RAG, documentanalyse en agentpaden”, aldus Bai. “In dit geval hebben we een reductie van minstens 20% in de implementatiekosten waargenomen en een vergelijkbare verbetering in de door de gebruiker waargenomen latentie.” Hij voegt eraan toe dat voor taken met een zeer korte context het voordeel rond de 5% schommelt.
Opmerkelijk is dat deze toename van de efficiëntie het redeneervermogen niet vermindert. Door gebruik te maken van een aanpak zonder training om 75% van de indexeerders te elimineren, komt het 30B-model overeen met de initiële gemiddelde basisscore op de lange contextbenchmark, met een score van 49,9 vergeleken met de initiële score van 50,2. Op de zeer complexe AIME 2025-benchmark voor wiskundig redeneren presteerde het geoptimaliseerde model feitelijk beter dan de oorspronkelijke basislijn, met een score van 92,6 vergeleken met 91,0.
Het team voerde ook eerste experimenten uit met een GLM-5-model op productieschaal met 744 miljard parameters. Ze ontdekten dat het elimineren van 75% van hun indexeerders met een trainingsvrije methode resulteerde in een versnelling van minstens 1,3x op contexten van meer dan 100.000 tokens. Tegelijkertijd behoudt het model bijna dezelfde gemiddelde kwaliteit bij taken met een lange context.
IndexCache in productie nemen
Voor ontwikkelingsteams die de huidige aanpak zonder training willen implementeren, is het proces eenvoudig, maar vereist het een zorgvuldige organisatie. Hoewel het hebzuchtige zoekalgoritme automatisch optimale laagconfiguraties vindt, hangt de kwaliteit van die configuraties af van de gegevens die het verwerkt.
“We raden aan domeinspecifieke gegevens te gebruiken als kalibratieset, zodat ontdekte patronen voor het delen van lagen aansluiten bij de daadwerkelijke werklast”, aldus Bai.
Eenmaal gekalibreerd is optimalisatie zeer toegankelijk voor productieomgevingen. Er bestaat al een open source-patch beschikbaar op GitHub voor de belangrijkste servicemachines. “Integratie is relatief eenvoudig: ontwikkelaars kunnen een patch toepassen op een bestaande inferentiestapel, zoals vLLM of SGLang, en IndexCache inschakelen met minimale configuratiewijzigingen”, aldus Bai.
Hoewel IndexCache een onmiddellijke oplossing biedt voor de huidige computerknelpunten, vertegenwoordigt de onderliggende filosofie een bredere verschuiving in de manier waarop de AI-industrie modelontwerp zal benaderen.
“Toekomstige funderingsmodellen zullen waarschijnlijk vanaf het begin worden ontworpen met downstream-inferentiebeperkingen in gedachten”, concludeerde Bai. “Dit betekent een ontwerp dat niet alleen schaalbaar is in termen van modelgrootte, maar ook geoptimaliseerd is voor real-world doorvoer en latentie, in plaats van dit als een post-hocprobleem te behandelen.”



