Home Nieuws ‘Observatiegeheugen’ verlaagt de kosten van AI-agenten met een factor 10 en presteert...

‘Observatiegeheugen’ verlaagt de kosten van AI-agenten met een factor 10 en presteert beter dan RAG op lange-contextbenchmarks

2
0
‘Observatiegeheugen’ verlaagt de kosten van AI-agenten met een factor 10 en presteert beter dan RAG op lange-contextbenchmarks

RAG is niet altijd snel genoeg of slim genoeg voor moderne AI-workflows voor agenten. Naarmate teams overstappen van kortstondige chatbots naar agenten met meerdere tools en tools ingebed in productiesystemen, worden deze beperkingen steeds moeilijker te overwinnen.

Als reactie daarop experimenteerde het team met alternatieve geheugenarchitecturen, ook wel genoemd contextueel geheugen of agentgeheugen – dat prioriteit geeft aan persistentie en stabiliteit boven dynamisch ophalen.

Een van de meest recente toepassingen van deze aanpak is ‘observationeel geheugen’, een open source-technologie ontwikkeld door Mastra, opgericht door de ingenieurs die deze eerder hebben gebouwd en verkocht Gatsby-framework voor Netlify.

In tegenstelling tot RAG-systemen die context dynamisch ophalen, gebruikt observationeel geheugen twee achtergrondagenten (Observer en Reflector) om de gespreksgeschiedenis te comprimeren in een gedateerd observatielogboek. Gecomprimeerde waarnemingen blijven in hun context, waardoor het ophalen volledig wordt geëlimineerd. Voor tekstinhoud bereikt het systeem een ​​compressie van 3-6x. Voor agentworkloads waarvoor veel tools nodig zijn en die een grote output produceren, bereiken de compressieverhoudingen 5-40x.

Het nadeel is dat het observationele geheugen prioriteit geeft aan wat de agent heeft gezien en beslist boven het doorzoeken van een breder extern corpus, waardoor het minder geschikt is voor open kennisontdekking of zeer compliance-eisende terugroepgebruiksscenario’s.

Het systeem scoorde 94,87% op LongMemEval met behulp van GPT-5-mini, terwijl een volledig stabiel en cachebaar contextvenster behouden bleef. Op het standaard GPT-4o-model scoorde het observationele geheugen 84,23%, vergeleken met Mastra’s RAG-implementatie van 80,05%.

“Mastra heeft de geweldige eigenschappen dat het eenvoudiger en krachtiger is, zoals beter scoren op benchmarks”, vertelde Sam Bhagwat, mede-oprichter en CEO van Mastra, aan VentureBeat.

Hoe het werkt: Twee agenten comprimeren de geschiedenis tot observaties

De architectuur is eenvoudiger dan traditionele geheugensystemen, maar levert betere resultaten op.

Observationeel geheugen verdeelt het contextvenster in twee blokken. De eerste bevat observaties: gecomprimeerde, gedateerde aantekeningen uit eerdere gesprekken. De tweede slaat de onbewerkte berichtgeschiedenis van de huidige sessie op.

Twee achtergrondagenten beheren het compressieproces. Wanneer het niet-geobserveerde bericht 30.000 tokens bereikt (configureerbaar), comprimeert de Observer-agent het in een nieuwe observatie en voegt het toe aan het eerste blok. Het originele bericht wordt verwijderd. Wanneer observaties 40.000 tokens bereiken (ook configureerbaar), herstructureert en comprimeert de Reflector-agent het observatielogboek, voegt gerelateerde items samen en verwijdert verouderde informatie.

“De manier waarop je deze berichten in de loop van de tijd comprimeert, is dat je eigenlijk gewoon een bericht krijgt, en dan zegt een agent: ‘Oké, wat is het belangrijkste om te onthouden uit deze reeks berichten?'” zei Bhagwat. “Je comprimeert het, dan krijg je nog eens 30.000 tokens, en je comprimeert het.”

Het formaat is op tekst gebaseerd en niet op gestructureerde objecten. Geen vectordatabase of grafische database vereist.

Stabiele contextvensters verlagen de tokenkosten tot wel 10x

De economische aspecten van observationeel geheugen komen voort uit snelle caches. Anthropic, OpenAI en andere providers verlagen de tokenkosten met 4-10x voor in de cache opgeslagen opdrachten ten opzichte van niet-in de cache opgeslagen opdrachten. De meeste geheugensystemen kunnen hiervan niet profiteren omdat ze voortdurend opdrachten wijzigen door dynamisch opgehaalde context in te voegen, waardoor de cache ongeldig wordt. Voor productieteams heeft deze volatiliteit een directe impact op onvoorspelbare kostencurves en moeilijker te budgetteren werklasten van agenten.

Observationeel geheugen houdt de context stabiel. Observatieblokken zijn alleen incrementeel totdat reflectie wordt uitgevoerd, wat betekent dat systeemopdrachten en bestaande observaties een consistent voorvoegsel vormen dat over meerdere lussen in de cache kan worden opgeslagen. Er worden nog steeds berichten toegevoegd aan het onbewerkte geschiedenisblok totdat de drempel van 30.000 tokens is bereikt. Elke beurt daarvoor is een volledige cache.

Terwijl de observatie loopt, wordt het bericht vervangen door een nieuwe observatie die aan het bestaande observatieblok wordt toegevoegd. Het observatievoorvoegsel blijft consistent, zodat het systeem nog steeds een gedeeltelijke cache krijgt. Alleen tijdens reflectie (die zelden wordt uitgevoerd) wordt de volledige cache ongeldig.

De gemiddelde contextvenstergrootte voor het uitvoeren van Mastra’s LongMemEval-benchmark is ongeveer 30.000 tokens, veel kleiner dan een volledige gespreksgeschiedenis zou vereisen.

Waarom is dit anders dan traditionele verdichting?

De meeste codeeragenten gebruiken compactie om lange contexten te beheren. Door compressie kan het contextvenster volledig worden gevuld en wordt de hele geschiedenis vervolgens gecomprimeerd tot een samenvatting wanneer deze op het punt staat te overlopen. De agent gaat verder, het venster wordt opnieuw gevuld en het proces herhaalt zich.

Compaction produceert een samenvatting in documentatiestijl. Het geeft de essentie weer van wat er is gebeurd, maar mist specifieke gebeurtenissen, beslissingen en details. Compressie vindt plaats in grote hoeveelheden, waardoor elke doorgang rekentechnisch duur wordt. Dit zorgt ervoor dat het voor mensen leesbaar is, maar laat vaak de specifieke beslissingen en instrumentinteracties achterwege die agenten nodig hebben om consistent te handelen in de loop van de tijd.

Waarnemers daarentegen rennen vaker en verwerken kleinere stukken. In plaats van gesprekken samen te vatten, produceert het een op gebeurtenissen gebaseerd beslissingslogboek: een gestructureerde lijst van gedateerde en geprioriteerde observaties over wat er werkelijk is gebeurd. Elke observatiecyclus verwerkt minder context en condenseert deze efficiënter.

Houtblokken worden nooit tot brokken gecondenseerd. Zelfs tijdens reflectie reorganiseert en condenseert Reflector observaties om verbanden te vinden en overtollige gegevens te verwijderen. Maar de op gebeurtenissen gebaseerde structuur blijft bestaan. Het resultaat is een registratie van beslissingen en acties, geen documentatie.

Enterprise-gebruiksscenario: Langlopende agentgesprekken

De klanten van Mastra omvatten verschillende categorieën. Sommigen maken in-app-chatbots voor CMS-platforms zoals Sanity of Contentful. Anderen creëren AI SRE-systemen waarmee technische teams waarschuwingen kunnen beoordelen. Documentverwerkende agenten verwerken documenten voor traditionele bedrijven die overstappen op automatisering.

Deze gebruiksscenario’s vereisen beide langdurige gesprekken die de context gedurende weken of maanden behouden. Agenten die zijn ingebed in een contentmanagementsysteem moeten onthouden dat een gebruiker drie weken geleden om een ​​specifiek rapportformaat heeft gevraagd. De SRE-agent moet bijhouden welke waarschuwingen worden onderzocht en welke beslissingen worden genomen.

“Een van de grote doelen voor 2025 en 2026 is het bouwen van agenten in hun webapplicaties”, zegt Bhagwat over B2B SaaS-bedrijven. “De agent zou zich moeten kunnen herinneren dat je mij dit bijvoorbeeld drie weken geleden hebt gevraagd, of dat je zei dat je rapporten over dit soort inhoud wilde, of weergaven gesegmenteerd op basis van deze statistieken.”

In dat scenario is geheugen niet langer een optimalisatie, maar wordt het een productvereiste. Gebruikers merken het onmiddellijk wanneer de agent eerdere beslissingen of voorkeuren vergeet.

Observatiegeheugen houdt maanden aan gespreksgeschiedenis levend en toegankelijk. De agent kan reageren terwijl hij de volledige context onthoudt, zonder dat de gebruiker eerdere voorkeuren of beslissingen opnieuw hoeft uit te leggen.

Het systeem wordt geleverd als onderdeel van Mastra 1.0 en is nu beschikbaar. Het team heeft deze week plug-ins uitgebracht voor LangChain, Vercel’s AI SDK en andere frameworks, waardoor ontwikkelaars observatiegeheugen buiten het Mastra-ecosysteem kunnen gebruiken.

Wat dit betekent voor productie-AI-systemen

Observationeel geheugen biedt een andere architecturale benadering dan de vectordatabases en RAG-pijplijnen die de huidige implementaties domineren. De eenvoudigere architectuur (op tekst gebaseerd, geen speciale database) maakt het eenvoudiger om fouten op te sporen en te onderhouden. Stabiele contextvensters maken agressieve caching mogelijk die kosten bespaart. Prestatiebenchmarks laten zien dat deze aanpak op schaal kan werken.

Voor bedrijfsteams die geheugenbenaderingen evalueren, zijn de belangrijkste vragen:

  • Hoeveel context moet uw agent behouden tijdens sessies?

  • Wat is uw tolerantie voor compressie met verlies versus volledige corpustraversal?

  • Heeft u behoefte aan de dynamische retrieval die RAG biedt, of zou een stabiele context beter werken?

  • Heeft uw agent meerdere tools nodig, die grote hoeveelheden uitvoer produceren waarvoor compressie nodig is?

Het antwoord bepaalt of observationeel geheugen bij uw gebruiksscenario past. Bhagwat positioneert geheugen als een van de belangrijkste primitieven die nodig zijn voor een krachtige agent, naast gereedschapsgebruik, workfloworkestratie, waarneembaarheid en vangrails. Voor bedrijfsagenten die in het product zijn ingebed, is het vergeten van de context tussen sessies onaanvaardbaar. Gebruikers verwachten dat agenten hun voorkeuren, eerdere beslissingen en onderhanden werk onthouden.

“Het moeilijkste voor een teambuildingbureau is de productie, die tijd kan kosten”, zegt Bhagwat. “Het geheugen is hierbij een heel belangrijk onderdeel, omdat het heel verrassend zou zijn als je de tools van een agent zou gebruiken en hem iets zou vertellen en hij het gewoon zou vergeten.”

Naarmate agenten overstappen van experimenten naar ingebedde logsystemen, kan de manier waarop teams het geheugen ontwerpen net zo belangrijk zijn als welk model ze kiezen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in