Een van de grote uitdagingen bij het inzetten van autonome agenten is het bouwen van een systeem dat zich kan aanpassen aan veranderingen in de omgeving zonder dat het onderliggende grote taalmodel (LLM) opnieuw hoeft te worden getraind.
Herinneringsvaardigheideen nieuw raamwerk ontwikkeld door onderzoekers van verschillende universiteiten overwint deze barrière door agenten de mogelijkheid te geven hun eigen vaardigheden te ontwikkelen. “Dat draagt er aan bij continu leren mogelijkheden tegen bestaande aanbiedingen die momenteel op de markt zijn, zoals OpenClaw en Claude Code”, vertelde Jun Wang, een van de auteurs van het artikel, aan VentureBeat.
Memento-Skills fungeren als een evoluerend extern geheugen, waardoor het systeem zijn mogelijkheden geleidelijk kan verbeteren zonder het onderliggende model te veranderen. Dit raamwerk biedt een reeks vaardigheden die kunnen worden bijgewerkt en uitgebreid naarmate agenten feedback ontvangen van hun omgeving.
Voor bedrijfsteams die agenten in productie draaien, is dit belangrijk. De alternatieven – het verfijnen van modelgewichten of het handmatig opbouwen van vaardigheden – vereisen aanzienlijke operationele overhead- en datavereisten. Memento-Skills vermijdt beide.
De uitdaging van het bouwen van je eigen groeiende bureau
Zelfontwikkelende agenten zijn belangrijk omdat ze de beperkingen van bevroren taalmodellen overwinnen. Zodra een model is geïmplementeerd, liggen de parameters ervan vast, waardoor het wordt beperkt tot de kennis die tijdens de training is gecodeerd en alles wat binnen het onmiddellijke contextvenster past.
Door een model een extern geheugenplatform te geven, kan het evolueren zonder een kostbaar en langzaam herscholingsproces. De huidige benaderingen van agentaanpassing zijn echter grotendeels afhankelijk van handmatig ontworpen vaardigheden om nieuwe taken uit te voeren. Hoewel er enkele geautomatiseerde methoden voor het leren van vaardigheden bestaan, produceren de meeste alleen teksthandleidingen die snel kunnen worden geoptimaliseerd. Andere benaderingen registreren alleen trajecten van afzonderlijke taken die niet worden overgedragen naar verschillende taken.
Wanneer deze agenten relevante kennis voor een nieuwe taak proberen op te halen, vertrouwen ze bovendien doorgaans op routers voor semantische gelijkenis, zoals standaard dichte inbedding; een hoge semantische overlap garandeert geen gedragsnut. Een agent die vertrouwt op een standaard RAG kan een script voor het opnieuw instellen van het wachtwoord ophalen om een zoekopdracht voor het verwerken van terugbetalingen te voltooien, simpelweg omdat het document dezelfde bedrijfsterminologie gebruikt.
“De meeste Retrieval-Augmented Generation (RAG)-systemen zijn afhankelijk van op gelijkenis gebaseerd ophalen. Wanneer vaardigheden echter worden weergegeven als uitvoerbare artefacten zoals markdown-documenten of codefragmenten, selecteert gelijkenis alleen mogelijk niet de meest effectieve vaardigheden”, zegt Wang.
Hoe Memento-Skills vaardigheden opslaat en bijwerkt
Om de beperkingen van de huidige agentsystemen te overwinnen, hebben de onderzoekers Memento-Skills gebouwd. Het artikel beschrijft het systeem als “een generalistisch, continu leerbaar LLM-agentsysteem dat functioneert als een agent-ontwerpende agent.” In plaats van een passieve registratie van eerdere gesprekken bij te houden, creëert Memento-Skills een reeks vaardigheden die fungeren als een aanhoudend, steeds evoluerend extern geheugen.
Deze vaardigheden worden opgeslagen als gestructureerde prijsverlagingsbestanden en dienen als de steeds groter wordende kennisbasis van een agent. Elk herbruikbaar vaardigheidsartefact bestaat uit drie kernelementen. Het bevat een declaratieve specificatie die de vaardigheid beschrijft en hoe deze moet worden gebruikt. Het bevat specifieke instructies en hints die de redenering van het taalmodel begeleiden. En het bevat de uitvoerbare code en helperscripts die de agent uitvoert om de taak daadwerkelijk te voltooien.
Memento-Skills realiseert continu leren via een ‘Read-Write Reflective Learning’-mechanisme, dat geheugenupdates beschouwt als actieve beleidsiteratie in plaats van passieve datalogging. Wanneer de agent met een nieuwe taak wordt geconfronteerd, ondervraagt de agent de router voor specifieke vaardigheden om de meest gedragsrelevante vaardigheden op te pikken (niet alleen de semantisch meest vergelijkbare vaardigheden) en voert deze uit.
Nadat de agent de vaardigheid heeft uitgevoerd en feedback heeft ontvangen, reflecteert het systeem de resultaten om de leerlus te sluiten. In plaats van eenvoudigweg een logboek toe te voegen van wat er is gebeurd, past het systeem actief zijn geheugen aan. Als de uitvoering mislukt, evalueert de Orchestrator de tracering en herschrijft het vaardigheidsartefact. Dit betekent dat u de code direct moet bijwerken of moet verzoeken om specifieke foutmodi te patchen. Indien nodig ontstaan hierdoor compleet nieuwe vaardigheden.
Memento-Skills werkt ook de vaardighedenrouter bij via een offline leerproces in één stap dat leert van feedback over de uitvoering, en niet alleen van tekstoverlap. “De echte waarde van een vaardigheid ligt in de manier waarop deze bijdraagt aan de algehele workflow van agenten en de uitvoering verderop in de keten”, zegt Wang. “Daarom biedt versterkend leren een geschikter raamwerk, omdat het agenten in staat stelt vaardigheden te evalueren en te selecteren op basis van bruikbaarheid op de lange termijn.”
Om tegenslagen in een productieomgeving te voorkomen, wordt automatische vaardigheidsmutatie bewaakt door geautomatiseerde unit-testgateways. Het systeem genereert synthetische testgevallen, doorloopt deze door bijgewerkte vaardigheden en controleert de resultaten voordat wijzigingen in de globale bibliotheek worden opgeslagen.
Door uitvoerbare tools voortdurend te herschrijven en te verfijnen, zorgt Memento-Skills ervoor dat bevroren taalmodellen een sterk spiergeheugen kunnen opbouwen en hun mogelijkheden geleidelijk over de hele linie kunnen uitbreiden.
Zelfontwikkelende agenten testen
Onderzoekers evalueerden Memento-Skills op basis van twee strenge benchmarks. De eerste is Algemene AI-assistent (GAIA), waarvoor complex redeneren in meerdere stappen, multimodaliteitsbeheer, surfen op het web en het gebruik van tools vereist zijn. De tweede is De laatste test van de mensheidof HLE, een benchmark op expertniveau die acht verschillende academische onderwerpen omvat, zoals wiskunde en biologie. Het gehele systeem wordt ondersteund door Gemini-3.1-Flash fungeert als een onderliggend bevroren taalmodel.
Dit systeem wordt vergeleken met het standaard Read-Write-systeem, dat vaardigheden oppikt en feedback verzamelt, maar zelfontwikkelende functies mist. De onderzoekers testten hun aangepaste vaardigheidsrouter ook met standaard semantische ophaalbasislijnen, waaronder BM25 en Qwen3-inbedding.
De resultaten bewijzen dat actief evoluerend geheugen veel beter presteert dan statische vaardighedenbibliotheken. Op een groot aantal GAIA-benchmarks verbeterde Memento-Skills de nauwkeurigheid van de testsets met 13,7 procentpunten ten opzichte van een statische basislijn, tot 66,0% vergeleken met 52,3%. Volgens de HLE-benchmark, wanneer de domeinstructuur massaal hergebruik van vaardigheden bij verschillende taken mogelijk maakt, verdubbelt het systeem de basisprestaties ruimschoots, van 17,9% naar 38,7%.
Bovendien vermijdt de aangepaste vaardigheidsrouter van Memento-Skills de klassieke valkuil waarbij irrelevante vaardigheden worden geselecteerd simpelweg vanwege semantische gelijkenis. Experimenten tonen aan dat Memento-Skills de algehele taaksuccespercentages tot 80% verhoogt, vergeleken met slechts 50% voor standaard BM25-herstel.
De onderzoekers merkten op dat Memento-Skills deze prestaties beheerde via een zeer organische en gestructureerde groei van vaardigheden. Beide benchmarkexperimenten begonnen met slechts vijf initiële vaardigheden, zoals basissurfen op het web en terminalbediening. In de GAIA-benchmark breidt de agent deze zaadpool autonoom uit tot een compacte bibliotheek van 41 vaardigheden om een verscheidenheid aan taken uit te voeren. Op basis van HLE-benchmarks op expertniveau schaalt het systeem zijn bibliotheek dynamisch naar 235 verschillende vaardigheden.
Het vinden van de goede plek voor het bedrijf
Onderzoekers hebben code vrijgegeven voor Memento-vaardigheden op GitHuben is beschikbaar voor gebruik.
Voor enterprise-architecten hangt de effectiviteit van deze systemen af van de afstemming van domeinen. In plaats van alleen naar benchmarkscores te kijken, ligt de kern van het bedrijf in de vraag of uw agenten geïsoleerde taken of gestructureerde workflows uitvoeren.
“De overdracht van vaardigheden hangt af van de mate van gelijkenis tussen taken,” zei Wang. “Ten eerste kunnen agenten, wanneer taken geïsoleerd of zwak gerelateerd zijn, niet vertrouwen op eerdere ervaringen en moeten ze leren door middel van interactie.” In een dergelijke verspreide omgeving is de overdracht van taken tussen taken beperkt. Ten tweede: als taken een substantiële structuur hebben, kunnen eerder verworven vaardigheden gemakkelijk worden hergebruikt. Hier wordt het leren efficiënter naarmate kennis wordt overgedragen tussen taken, waardoor agenten goed kunnen presteren bij nieuwe problemen met weinig of geen extra interactie.
Aangezien deze systemen repetitieve taakpatronen vereisen om kennis te consolideren, moeten bedrijfsleiders precies weten waar ze deze systemen nu moeten implementeren en waar ze ze moeten uitstellen.
“Workflow is waarschijnlijk de meest geschikte setting voor deze aanpak, omdat het een gestructureerde omgeving biedt waarin vaardigheden kunnen worden gestructureerd, geëvalueerd en verbeterd”, zegt Wang.
Hij waarschuwde echter voor buitensporige inzet in gebieden die niet aan het raamwerk voldoen. “Fysieke agenten blijven in deze context grotendeels onontgonnen en vereisen verder onderzoek. Bovendien kunnen taken met een langere tijdshorizon meer geavanceerde benaderingen vereisen, zoals multi-agent LLM-systemen, om continue coördinatie, planning en uitvoering van lange ketens van beslissingen mogelijk te maken.”
Terwijl de industrie steeds meer in de richting gaat van agenten die autonoom hun eigen productiecode herschrijven, blijven bestuur en veiligheid voorop staan. Hoewel Memento-Skills gebruik maakt van veiligheidsbasissen zoals geautomatiseerde unit-testing-gateways, kan er een breder raamwerk nodig zijn voor de implementatie ervan in de onderneming.
“Om betrouwbare zelfverbetering mogelijk te maken, hebben we een goed ontworpen evaluatie- of beoordelingssysteem nodig dat de prestaties kan beoordelen en consistente begeleiding kan bieden”, aldus Wang. “In plaats van zelfmodificatie onbelemmerd te laten, moet het proces worden gestructureerd als een vorm van begeleide zelfontwikkeling, waarbij feedback agenten naar betere ontwerpen leidt.”


