Home Nieuws Hoe xMemory de opgeblazen token- en contextkosten bij AI-agents verlaagt

Hoe xMemory de opgeblazen token- en contextkosten bij AI-agents verlaagt

Door

maart 25, 2026

De standaard RAG-pijplijn brak toen bedrijven deze probeerden te gebruiken voor langdurige inzet van LLM-agenten met meerdere sessies. Dit is een belangrijke beperking nu de vraag naar persistente AI-assistenten toeneemt.

xGeheugeneen nieuwe techniek ontwikkeld door onderzoekers van King’s College London en het Alan Turing Institute lost dit probleem op door gesprekken te organiseren in een doorzoekbare hiërarchie van semantische thema’s.

Experimenten tonen aan dat xMemory de kwaliteit van antwoorden en het redeneren op lange termijn in alle LLM’s verbetert, terwijl de inferentiekosten worden verlaagd. Volgens de onderzoekers verminderde dit het tokengebruik van meer dan 9.000 naar ongeveer 4.700 tokens per zoekopdracht in vergelijking met het bestaande systeem voor sommige taken.

Voor zakelijke toepassingen in de echte wereld, zoals gepersonaliseerde AI-assistenten en tools voor beslissingsondersteuning voor meerdere sessies, betekent dit dat organisaties betrouwbaardere, contextbewuste agenten kunnen inzetten die in staat zijn om een samenhangend langetermijngeheugen te behouden zonder dat er rekenkosten aan verbonden zijn.

RAG is hier niet voor gemaakt

Bij veel zakelijke LLM-toepassingen is een belangrijke verwachting dat het systeem de samenhang en personalisatie zal behouden tijdens lange interacties die meerdere sessies duren. Om deze langetermijnredenering te ondersteunen, is een veel voorkomende aanpak het gebruik van een standaard RAG: sla dialoog en gebeurtenissen uit het verleden op, neem een aantal topmatches op basis van gelijkenis-inbedding en combineer deze in een contextvenster om een antwoord te produceren.

Traditionele RAG’s zijn echter gebouwd voor grote databases waarbij de opgehaalde documenten zeer divers zijn. De grootste uitdaging is het filteren van volledig irrelevante informatie. Het geheugen van een AI-agent is daarentegen een eindige, continue stroom van gesprekken, wat betekent dat de opgeslagen gegevensbrokken sterk gecorreleerd zijn en vaak bijna duplicaten bevatten.

Om te begrijpen waarom het eenvoudigweg vergroten van het contextvenster niet werkt, kunt u overwegen hoe standaard RAG omgaat met concepten als sinaasappels.

Stel je voor dat een gebruiker meerdere gesprekken voert en dingen zegt als ‘Ik hou van sinaasappels’, ‘Ik hou van mandarijnen’, en afzonderlijk andere gesprekken over wat telt als citrusvrucht. Traditionele RAG’s vinden dit allemaal semantisch dichtbij en blijven soortgelijke ‘oranje-achtige’ trailers schieten.

“Als het ophalen van een van de dichtste clusters in de inbeddingsruimte mislukt, kan de agent veel zeer vergelijkbare stukken over voorkeuren krijgen, maar de categorische feiten missen die nodig zijn om de echte vraag te beantwoorden,” vertelde Lin Gui, een van de auteurs van het artikel, aan VentureBeat.

Een veel voorkomende oplossing die technische teams maken, is het toepassen van bijsnijden of compressie na de opname om ruis weg te filteren. Deze methoden gaan ervan uit dat de gevolgde paden zeer variabel zijn en dat irrelevante ruispatronen duidelijk kunnen worden gescheiden van bruikbare feiten.

Deze aanpak faalt in het geheugen van gespreksagenten, omdat de menselijke dialoog ‘van voorbijgaande aard’ is, schreven de onderzoekers. Het conversatiegeheugen is sterk afhankelijk van gedeelde referenties, ellipsen en strikte tijdlijnafhankelijkheid. Vanwege deze onderlinge verbondenheid verwijderen traditionele snoeitools vaak per ongeluk belangrijke delen van een gesprek, waardoor de AI geen belangrijke context meer heeft om nauwkeurig na te denken.

Naïeve RAG versus gestructureerd geheugen (bron: arXiv)

Waarom de verbeteringen die de meeste teams aanbrengen de zaken alleen maar erger maken

Om deze beperkingen te overwinnen, stelden de onderzoekers een verandering voor in de manier waarop herinneringen van agenten worden geconstrueerd en doorzocht, wat zij omschrijven als ‘opsplitsen naar aggregatie’.

In plaats van gebruikersvragen rechtstreeks te vergelijken met overlappende onbewerkte chatlogboeken, organiseert het systeem gesprekken in een hiërarchische structuur. Ten eerste verdeelt het de gespreksstroom in afzonderlijke en onafhankelijke semantische componenten. Deze individuele feiten worden vervolgens samengevoegd in een hiërarchie van structurele thema’s op een hoger niveau.

Wanneer de AI informatie moet onthouden, zoekt hij top-down door de hiërarchie, van thema’s tot semantiek en uiteindelijk naar onbewerkt beeldmateriaal. Deze aanpak vermijdt redundantie. Als twee dialoogfragmenten vergelijkbare inbedding hebben, is het voor het systeem onmogelijk om ze samen op te halen als ze aan verschillende semantische componenten zijn toegewezen.

Om deze architectuur succesvol te laten zijn, moet deze twee belangrijke structurele eigenschappen in evenwicht brengen. Semantische componenten moeten voldoende gedifferentieerd zijn om te voorkomen dat de AI overtollige gegevens ophaalt. Tegelijkertijd moeten aggregaties op een hoger niveau semantisch trouw blijven aan hun oorspronkelijke context om ervoor te zorgen dat het model nauwkeurige antwoorden kan bieden.

Een hiërarchie met vier niveaus die het contextvenster verkleint

De onderzoekers ontwikkelden xMemory, een raamwerk dat gestructureerd geheugenbeheer combineert met een adaptieve top-down zoekstrategie.

xMemory organiseert voortdurend ruwe gespreksstromen in een gestructureerde hiërarchie met vier niveaus. In principe zijn er onbewerkte berichten, die eerst worden samengevat in aaneengesloten blokken die ‘afleveringen’ worden genoemd. Uit deze episodes distilleert het systeem feiten die kunnen worden hergebruikt als semantiek die kernkennis op de lange termijn uit terugkerende chatlogs schetst. Ten slotte wordt de gerelateerde semantiek gegroepeerd in thema’s op hoog niveau, zodat u gemakkelijk kunt zoeken.

geheugen x — xMemory-architectuur (bron: arXiv)

xMemory maakt gebruik van speciale functies om de manier waarop deze items worden gegroepeerd voortdurend te optimaliseren. Dit voorkomt dat categorieën te uitgebreid worden, wat zoekopdrachten vertraagt, of te gefragmenteerd raken, wat het vermogen van het model om bewijsmateriaal te verzamelen en vragen te beantwoorden verzwakt.

Wanneer xMemory een prompt ontvangt, voert xMemory een top-down-ophaalactie uit in deze hiërarchie. Het begint op het niveau van thema’s en semantiek, waarbij een gevarieerde en compacte reeks relevante feiten wordt geselecteerd. Dit is belangrijk voor toepassingen in de echte wereld, waarbij voor zoekopdrachten van gebruikers vaak beschrijvingen van verschillende onderwerpen moeten worden verzameld of verbonden feiten aan elkaar moeten worden gekoppeld voor complexe multi-hop-redeneringen.

Zodra het systeem een raamwerk van feiten op hoog niveau heeft, controleert het de redundantie via wat onderzoekers ‘Uncertainty Gating’ noemen. Het volgt alleen fijner, rauwer bewijsmateriaal op episode- of berichtniveau als die specifieke details de modelonzekerheid aanzienlijk verminderen.

“Semantische gelijkenis is een signaal voor het genereren van kandidaten; onzekerheid is een beslissingssignaal”, zei Gui. “Gemeenschappelijkheid vertelt je wat er in de buurt is. Onzekerheid vertelt je wat de moeite waard is om binnen een tijdig budget voor te betalen.” Het stopt met ontwikkelen wanneer het ontdekt dat het toevoegen van meer details niet langer helpt de vraag te beantwoorden.

Wat zijn de alternatieven?

Die bestaat agent-geheugensysteem vallen over het algemeen in twee structurele categorieën: plat ontwerp en gestructureerd ontwerp. Beide hebben fundamentele beperkingen.

Wat een platte aanpak MemGPT registreert onbewerkte dialoog of minimaal verwerkte sporen. Hiermee worden gesprekken vastgelegd, maar ontstaat er enorme redundantie en stijgen de ophaalkosten naarmate de geschiedenis langer wordt.

Het systeem is gestructureerd als A-MEM en MemoryOS probeert dit op te lossen door het geheugen in een hiërarchie of grafiek te organiseren. Ze vertrouwen echter nog steeds op onbewerkte of minimaal verwerkte tekst als primaire ophaaleenheid, waarbij vaak gebruik wordt gemaakt van brede en opgeblazen contexten. Het systeem is ook sterk afhankelijk van door LLM gegenereerde geheugenrecords die strikte schemabeperkingen hebben. Als de AI ook maar een klein beetje afwijkt in de opmaak, kan dit geheugenstoringen veroorzaken.

xMemory pakt deze beperkingen aan door middel van geoptimaliseerde geheugenconstructieschema’s, hiërarchische prefetching en dynamische herstructurering van het geheugen naarmate het groter wordt.

Wanneer moet u xMemory gebruiken?

Voor enterprise-architecten is het van cruciaal belang om te weten wanneer deze architectuur moet worden overgenomen in plaats van standaard RAG. Volgens Gui is “xMemory het meest aantrekkelijk wanneer het systeem coherent moet blijven gedurende weken of maanden van interactie.”

Klantenservicemedewerkers profiteren bijvoorbeeld enorm van deze aanpak, omdat ze stabiele gebruikersvoorkeuren, incidenten uit het verleden en accountspecifieke context moeten onthouden zonder herhaaldelijk bijna dubbele supporttickets te moeten ophalen. Gepersonaliseerde training is een ander ideaal gebruiksscenario, waarbij AI de duurzame gebruikerskenmerken moet scheiden van dagelijkse episodische details.

Als een onderneming daarentegen AI bouwt om te communiceren met een bestandsopslagplaats, zoals een beleidshandleiding of technische documentatie, “is de eenvoudigere RAG-stack nog steeds een betere technische keuze”, aldus Gui. In dergelijke statische, documentgerichte scenario’s is het corpus zo divers dat het standaard ophalen van de dichtstbijzijnde buur goed werkt zonder de operationele last van hiërarchisch geheugen.

De geschreven belasting is zeer waardevol

xMemory omzeilt de latentiebarrières die gepaard gaan met het genereren van definitieve LLM-antwoorden. In standaard RAG-systemen wordt LLM gedwongen contextvensters te lezen en te verwerken die opgeblazen zijn en vol overtollige dialogen zitten. Omdat nauwkeurige, top-down xMemory-prefetching een veel kleiner en zeer gericht contextvenster opbouwt, besteedt de LLM-lezer veel minder rekentijd aan het analyseren van opdrachten en het produceren van de uiteindelijke uitvoer.

In hun experimenten met lange-contexttaken presteerden zowel open als gesloten modellen uitgerust met xMemory beter dan andere basislijnen, waarbij ze aanzienlijk minder tokens gebruikten en tegelijkertijd de taaknauwkeurigheid verbeterden.

xGeheugenprestaties — xMemory verbetert de prestaties bij een verscheidenheid aan taken en verlaagt tegelijkertijd de tokenkosten (bron: arXiv)

Voor deze efficiënte terugwinning zijn echter kosten vooraf vereist. Voor bedrijfsimplementaties is het voordeel van xMemory dat het enorme leesbelastingen vervangt door vooraf geschreven belastingen. Hoewel het uiteindelijk het beantwoorden van gebruikersvragen sneller en goedkoper maakt, vereist het onderhouden van de geavanceerde architectuur een grote hoeveelheid achtergrondverwerking.

In tegenstelling tot standaard RAG-pijplijnen, die op goedkope wijze ruwe tekstinsluitingen in een database dumpen, moet xMemory verschillende extra LLM-aanroepen uitvoeren om gespreksgrenzen te detecteren, afleveringen samen te vatten, semantische feiten op de lange termijn te extraheren en overkoepelende thema’s te synthetiseren.

Bovendien voegt het xMemory-herstructureringsproces extra computervereisten toe, omdat de AI zijn eigen interne archiveringssystemen moet organiseren, verbinden en bijwerken. Om de operationele complexiteit in de productie te beheersen, kunnen teams deze enorme herstructureringen asynchroon of in microbatches uitvoeren in plaats van gebruikersvragen synchroon te blokkeren.

Voor ontwikkelaars die prototypes willen maken, is xMemory-code openbaar beschikbaar op GitHub onder de MIT-licentie, waardoor het geschikt is voor commercieel gebruik. Als je dit probeert toe te passen op een bestaande orkestratietool als LangChain, stelt Gui voor dat je je eerst op de kerninnovatie concentreert: “Het belangrijkste dat je eerst moet bouwen is niet een mooiere promptretriever. Het is de geheugendecompositielaag. Als je maar één ding eerst goed doet, maak er dan de indexerings- en decompositielogica van.”

Terughalen is niet het laatste obstakel

Terwijl xMemory een krachtige oplossing biedt voor de beperkingen van de hedendaagse contextvensters, maakt het de weg vrij voor de volgende generatie uitdagingen in de workflows van agenten. Omdat AI-agenten gedurende langere tijd samenwerken, is het simpelweg vinden van de juiste informatie niet voldoende.

“Ophalen was een knelpunt, maar toen het ophalen eenmaal verbeterde, kwam het systeem al snel tegen levenscyclusbeheer en geheugenbeheer aan als het volgende knelpunt”, aldus Gui. Navigeren hoe gegevens moeten vervallen, omgaan met de privacy van gebruikers en het behoud van gedeeld geheugen tussen agenten zijn “dingen waarvan ik hoop dat ze zullen gebeuren in de volgende golf van werk”, zei hij.

Nieuwsbron

Hoe xMemory de opgeblazen token- en contextkosten bij AI-agents verlaagt

RAG is hier niet voor gemaakt

Waarom de verbeteringen die de meeste teams aanbrengen de zaken alleen maar erger maken

Een hiërarchie met vier niveaus die het contextvenster verkleint

Wat zijn de alternatieven?

Wanneer moet u xMemory gebruiken?

De geschreven belasting is zeer waardevol

Terughalen is niet het laatste obstakel

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Lauren Chan is bang voor een boobjob bij chirurg Kris Jenner

Lamont Roach ziet slechts één winnaar in Teofimo Lopez vs Shakur Stevenson: “Hij gaat...

Dames NCAA Fort Worth 1 Roundup: nr. 1 Ohio State 3 passeert nr. 3...

Trollen zijn overal aanwezig op de Olympische verloving van Breezy Johnson sinds Taylor Swift...