Home Nieuws Door AI-geheugenmuren heen breken met tokenopslag

Door AI-geheugenmuren heen breken met tokenopslag

9
0
Door AI-geheugenmuren heen breken met tokenopslag

Terwijl agent-AI van experimenten naar echte productieworkloads gaat, komt een stil maar serieus infrastructuurprobleem in beeld: geheugen. Niet tellen. Geen model. Geheugen.

Onder de motorkap hebben de huidige GPU’s niet genoeg ruimte om de Key-Value (KV) cache op te slaan waar moderne, langlopende AI-agents op vertrouwen om de context te behouden. Het resultaat is veel onzichtbare verspilling: GPU’s herhalen werk dat ze al hebben gedaan, de cloudkosten stijgen en de prestaties gaan achteruit. Dit is een probleem dat al opduikt in productieomgevingen, hoewel de meeste mensen het niet hebben genoemd.

Tijdens een recente stop op de VentureBeat AI Impact Series voegde WEKA CTO Shimon Ben-David zich bij VentureBeat CEO Matt Marshall om de groeiende ‘geheugenmuur’ van de industrie te onthullen en waarom dit een van de grootste obstakels is voor het opschalen van werkelijk stateful agent AI – systemen die in de loop van de tijd context kunnen onthouden en opbouwen. Het gesprek stelt niet alleen het probleem vast; het biedt een nieuwe manier om over het geheugen als geheel na te denken, via een aanpak die WEKA token warehousing noemt.

GPU-geheugenprobleem

“Als we naar de inferentie-infrastructuur kijken, is het geen GPU-cyclusuitdaging. Het is vooral een GPU-geheugenprobleem”, aldus Ben-David.

De wortel van het probleem ligt in de manier waarop het transformatormodel werkt. Om reacties te genereren, vertrouwen ze op een KV-cache die contextuele informatie opslaat voor elk token in het gesprek. Hoe langer het contextvenster, hoe meer geheugen de cache in beslag neemt, en dat geheugen groeit snel. Voor een serie van 100.000 tokens is ongeveer 40 GB GPU-geheugen nodig, aldus Ben-David.

Dat zou geen probleem zijn als de GPU onbeperkt geheugen had. Maar dat deden ze niet. Zelfs de meest geavanceerde GPU’s hebben een geheugen met hoge bandbreedte (HBM) van ongeveer 288 GB, en die ruimte moet ook ruimte bieden aan het model zelf.

In een echte omgeving met meerdere tenants wordt dit snel pijnlijk. Werklasten zoals codeontwikkeling of belastingaangifteverwerking zijn voor context sterk afhankelijk van KV-cache.

“Als ik drie of vier PDF’s van 100.000 token in een model laad, is dat het dan – ik heb de KV-cachecapaciteit in HBM uitgeput”, zei Ben-David. Dit is wat een geheugenmuur wordt genoemd. “Plotseling wordt de gevolgtrekkingsomgeving gedwongen om gegevens weg te gooien”, voegde hij eraan toe.

Dit betekent dat GPU’s voortdurend context negeren die ze opnieuw nodig hebben, waardoor wordt voorkomen dat agenten stateful zijn en gesprekken en context in de loop van de tijd behouden.

Verborgen gevolgtrekkingsbelasting

“We zien voortdurend dat GPU’s in de inferentieomgeving dingen die ze al hebben gedaan opnieuw berekenen”, zegt Ben-David. Het systeem vult eerst de KV-cache, begint met het decoderen, heeft dan geen ruimte meer en verwijdert de eerdere gegevens. Wanneer die context weer nodig is, herhaalt het hele proces zich: eerst invullen, decoderen, opnieuw invullen. Op grote schaal is dit verspilling van werk. Dit betekent ook verspilling van energie, verhoogde latentie en een verslechterde gebruikerservaring, terwijl de marges blijven krimpen.

Dat GPU-herberekeningsverlies verschijnt direct op de balans. Organisaties kunnen bijna 40% overhead ervaren als gevolg van excessieve initiële bevoorradingscycli. Dit creëert een rimpeleffect op de inferentiemarkt.

“Als je kijkt naar de prijzen van grote modelleringsproviders zoals Anthropic en OpenAI, leren ze gebruikers feitelijk hun opdrachten te structureren op een manier die de kans vergroot dat dezelfde GPU wordt gebruikt als de opgeslagen KV-cache”, aldus Ben-David. “Als je deze GPU’s gebruikt, kan het systeem de voorlaadfase overslaan en onmiddellijk beginnen met decoderen, waardoor ze op efficiënte wijze meer tokens kunnen genereren.”

Dit lost echter nog steeds niet het fundamentele infrastructuurprobleem op, namelijk de zeer beperkte GPU-geheugencapaciteit.

Oplossen voor stateful AI

“Hoe beklim je die muur van herinnering? Hoe kom je daarachter? Dat is de sleutel tot moderne, kosteneffectieve gevolgtrekkingen”, zei Ben-David. “We zien dat veel bedrijven dit probleem op verschillende manieren proberen op te lossen.”

Sommige organisaties implementeren nieuwe lineaire modellen die proberen kleinere KV-caches te creëren. Anderen richten zich op het aanpakken van de cache-efficiëntie.

“Om efficiënter te zijn, gebruiken bedrijven omgevingen die de KV-cache op een enkele GPU berekenen en deze vervolgens uit het GPU-geheugen proberen te kopiëren of daarvoor een lokale omgeving gebruiken”, legt Ben-David uit. “Maar hoe doe je dat op schaal en op een kosteneffectieve manier die je geheugen en je netwerk niet belast? WEKA helpt onze klanten hiermee.”

Door simpelweg meer GPU’s te gebruiken om het probleem op te lossen, wordt het AI-geheugenknelpunt niet opgelost. “Er zijn een aantal problemen waar je gewoon niet genoeg geld aan kunt uitgeven om ze op te lossen,” zei Ben-David.

Extra geheugen en opslag van tokens, legt hij uit

Het antwoord van WEKA is wat het augmented memory en token warehousing noemt – een manier om opnieuw na te denken over waar en hoe KV-cachegegevens zich bevinden. In plaats van alles in het GPU-geheugen te forceren, breidt WEKA’s Augmented Memory Grid de KV-cache uit naar een snel, gedeeld “magazijn” in zijn NeuralMesh-architectuur.

In de praktijk verandert geheugen hierdoor van een harde beperking in een schaalbare hulpbron – zonder dat er gevolglatentie ontstaat. WEKA zegt dat klanten de KV-cachesnelheden zien stijgen naar 96-99% voor de werklast van agenten, samen met een verhoogde efficiëntie met tot 4,2x meer tokens geproduceerd per GPU.

Ben-David legt het eenvoudig uit: “Stel je voor dat je 100 GPU’s hebt die een bepaald aantal tokens produceren. Stel je nu voor dat die honderd GPU’s werken alsof het 420 GPU’s zijn.”

Voor grote aanbieders van inferentie is het resultaat niet alleen betere prestaties, maar heeft het ook een directe impact op de reële economie.

“Alleen al door een versnelde KV-cachelaag toe te voegen, zien we enkele gebruiksscenario’s waarbij de besparingen kunnen oplopen tot miljoenen dollars per dag”, aldus Ben-David

Deze efficiëntievermenigvuldiger opent ook nieuwe strategische opties voor de zakenwereld. Platformteams kunnen stateful agents ontwerpen zonder zich zorgen te hoeven maken over het verbruik van geheugenbudgetten. Serviceproviders kunnen prijsniveaus aanbieden op basis van persistente context, waarbij cache-inferentie tegen veel lagere kosten wordt aangeboden.

Wat gebeurde er daarna

NVIDIA voorspelt een honderdvoudige toename van de vraag naar inferenties nu AI-agents de dominante werklast worden. Deze druk begint door te sijpelen van hyperscalers naar alledaagse bedrijfsapplicaties; het is niet langer slechts een ‘big tech’-probleem.

Naarmate bedrijven overstappen van proof-of-concept naar echte productiesystemen, wordt geheugenpersistentie een groot infrastructuurprobleem. Organisaties die dit als een architecturale prioriteit beschouwen en niet als een bijzaak, zullen duidelijke voordelen zien in zowel de kosten als de prestaties.

De geheugenmuur is niet iets dat overwonnen kan worden tegen enorme kosten voor de organisatie. Naarmate AI van agenten evolueert, is dit een van de eerste beperkingen van de AI-infrastructuur die ons dwingt om dieper na te denken, en zoals het inzicht van Ben-David uitlegt, kan het geheugen ook het punt zijn waar de volgende golf van concurrentiedifferentiatie begint.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in