Home Nieuws MemRL presteert zonder aanpassingen beter dan RAG op complexe agentbenchmarks

MemRL presteert zonder aanpassingen beter dan RAG op complexe agentbenchmarks

11
0
MemRL presteert zonder aanpassingen beter dan RAG op complexe agentbenchmarks

Een nieuwe techniek, ontwikkeld door onderzoekers van de Shanghai Jiao Tong Universiteit en andere instellingen, stelt agenten van grote taalmodellen in staat nieuwe vaardigheden te leren zonder dat daarvoor dure aanpassingen nodig zijn.

De onderzoekers stellen voor MemRLeen raamwerk dat agenten de mogelijkheid geeft om episodisch geheugen te ontwikkelen, het vermogen om ervaringen uit het verleden op te halen om oplossingen te creëren voor onzichtbare taken. Met MemRL kunnen agenten omgevingsfeedback gebruiken om hun probleemoplossende strategieën voortdurend te verfijnen.

MemRL maakt deel uit van een bredere impuls in de onderzoeksgemeenschap om te verbeteren continu leren mogelijkheden voor AI-toepassingen. In experimenten met belangrijke industriële benchmarks presteert het raamwerk beter dan andere basislijnen zoals RAG en andere geheugenorganisatietechnieken, vooral in complexe omgevingen die verkenning en experimenten vereisen. Dit suggereert dat MemRL een cruciaal onderdeel kan zijn voor het bouwen van AI-applicaties die moeten werken in dynamische, realistische omgevingen waar vereisten en taken voortdurend veranderen.

Het stabiliteits-plasticiteitsdilemma

Een van de belangrijkste uitdagingen bij het inzetten van agentapplicaties is het aanpassen van het onderliggende model aan nieuwe kennis en taken na de initiële trainingsfase. De huidige benaderingen vallen over het algemeen in twee categorieën: parametrische benaderingen, b.v aanpassingen niet-parametrische benaderingen, zoals RAG. Maar beide hebben aanzienlijke compromissen.

Verfijning is weliswaar effectief voor het opnemen van nieuwe informatie, maar is rekentechnisch duur en traag. Wat nog belangrijker is, dit leidt vaak tot heel erg vergeteneen fenomeen waarbij nieuw verworven kennis eerder geleerde gegevens overschrijft, waardoor de algemene prestaties van het model afnemen.

Daarentegen zijn niet-parametrische methoden zoals RAG in wezen passief; ze halen informatie op die uitsluitend is gebaseerd op semantische gelijkenis, zoals vectorinbedding, zonder de feitelijke bruikbaarheid van die informatie voor de invoerquery te evalueren. Deze benadering gaat ervan uit dat ‘gelijkenis bruikbaarheid betekent’, wat vaak gebrekkig is bij complexe redeneringstaken.

De onderzoekers beweren dat de menselijke intelligentie dit probleem oplost door ‘een evenwicht te bewaren tussen de stabiliteit van cognitief redeneren en de plasticiteit van het episodisch geheugen’. In het menselijk brein is stabiel redeneren (geassocieerd met de cortex) gescheiden van het dynamische episodisch geheugen. Hierdoor kunnen mensen zich aanpassen aan nieuwe taken zonder “neurale circuits te resetten” (het equivalent van het verfijnen van het model).

Binnen het MemRL-framework

Geïnspireerd door het gebruik van episodisch geheugen en cognitief redeneren door mensen, is MemRL ontworpen om een ​​agent in staat te stellen zijn prestaties na inzet voortdurend te verbeteren zonder de stabiliteit van zijn backbone LLM in gevaar te brengen. In plaats van de modelparameters te veranderen, verschuift het raamwerk in plaats daarvan het aanpassingsmechanisme naar een zichzelf ontwikkelende externe geheugenstructuur.

In deze architectuur blijven de LLM-parameters volledig bevroren. Het model fungeert effectief als een “cortex”, verantwoordelijk voor algemene redenering, logica en codegeneratie, maar niet verantwoordelijk voor het opslaan van specifieke successen of mislukkingen die zich na de implementatie voordoen. Deze structuur zorgt voor stabiel cognitief redeneren en voorkomt catastrofaal vergeten.

MemRL-framework (bron: arXiv)

Om de aanpassing aan te kunnen, onderhoudt MemRL een dynamische episodische geheugencomponent. In plaats van platte tekstdocumenten en statische inbeddingswaarden op te slaan, zoals gebruikelijk is bij RAG, organiseert MemRL het geheugen in ‘intent-ervaring-utility’-tripletten. Het bevat de vraag van de gebruiker (intentie), het traject van een specifieke oplossing of ondernomen actie (ervaring) en een score, bekend als een Q-waarde, die aangeeft hoe succesvol deze specifieke ervaring in het verleden is geweest (utility).

Het belangrijkste voor enterprise-architecten is dat deze nieuwe datastructuur geen ontmanteling van de bestaande infrastructuur vereist. “MemRL is ontworpen als een ‘drop-in’ vervanging voor de ophaallaag in bestaande technologiestapels en is compatibel met een verscheidenheid aan vectordatabases”, vertelde Muning Wen, een van de auteurs van het artikel en een promovendus aan de Shanghai Jiao Tong Universiteit, aan VentureBeat. “Het bestaan ​​en het updaten van ‘Q-Value’ is uitsluitend bedoeld voor een betere evaluatie en beheer van dynamische gegevens… en is onafhankelijk van het opslagformaat.”

Deze nutsscore is een belangrijke onderscheidende factor ten opzichte van klassieke RAG-systemen. Op het moment van inferentie gebruikt de MemRL-agent een “tweefasig ophaalmechanisme”. Ten eerste identificeert het systeem herinneringen die semantisch dicht bij de vraag liggen om de relevantie te garanderen. Vervolgens herschikten ze de kandidaten op basis van hun Q-scores en gaven ze effectief prioriteit aan bewezen strategieën.

Dit raamwerk integreert versterkend leren rechtstreeks in het geheugenherstelproces. Wanneer de agent een oplossing probeert te vinden en omgevingsfeedback ontvangt (d.w.z. succes of mislukking), werkt de agent de Q-waarde van het opgehaalde geheugen bij. Hierdoor ontstaat een gesloten feedbacklus: na verloop van tijd leert de agent afleidende herinneringen te negeren en prioriteit te geven aan hoogwaardige strategieën zonder de onderliggende LLM opnieuw te hoeven trainen.

Hoewel het toevoegen van een versterkende leerstap klinkt alsof het een aanzienlijke latentie toevoegt, merkt Wen op dat de rekenkundige overhead minimaal is. “Onze Q-waardeberekeningen worden volledig op de CPU uitgevoerd”, zei hij.

MemRL beschikt ook over runtime-continue leermogelijkheden. Wanneer de agent een nieuw scenario tegenkomt, gebruikt het systeem de bevroren LLM om het nieuwe traject samen te vatten en als een nieuw triplet aan de geheugenbank toe te voegen. Hierdoor kan de agent zijn kennisbasis dynamisch uitbreiden terwijl hij met de wereld communiceert.

Het is vermeldenswaard dat het automatiseren van scores risico’s met zich meebrengt: als het systeem per ongeluk een slechte interactie valideert, kan de agent de verkeerde les leren. Wen erkende het risico van dit ‘giftige geheugen’, maar merkte op dat MemRL, in tegenstelling tot neurale netwerken in de zwarte doos, transparant en controleerbaar blijft. “Als slechte interacties ten onrechte als positieve voorbeelden worden geclassificeerd… kunnen ze zich breder verspreiden”, zei Wen. “Maar… we kunnen dit eenvoudig oplossen door de besmette gegevens uit de geheugenbank te verwijderen of de Q-waarde ervan opnieuw in te stellen.”

MemRL in actie

De onderzoekers evalueerden MemRL aan de hand van meerdere basislijnen op vier verschillende industriële benchmarks: BigCodeBench (codegeneratie), ALFWorld (gerealiseerde navigatie), Lifelong Agent Bench (OS- en database-interacties) en de Ultimate Test of Humanity (complex multidisciplinair redeneren).

De resultaten laten zien dat MemRL consistent beter presteert dan de basislijn op het gebied van runtime leren (verbetering tijdens sessies) en overdracht van leren (generaliseren naar onzichtbare taken).

MemRL-prestaties

MemRL-prestaties op belangrijke benchmarks in de sector (bron: arXiv)

De voordelen van dit waardebewuste ophaalmechanisme zijn het meest uitgesproken in omgevingen waarin veel onderzoek wordt gedaan, zoals ALFWorld. In deze benchmark, waarbij agenten moeten navigeren en communiceren met een gesimuleerde huishoudelijke omgeving, behaalt MemRL een relatieve verbetering van ongeveer 56% ten opzichte van MemPhet geheugenframework van een andere agent. De onderzoekers ontdekten dat de versterkende leercomponent agenten effectief aanmoedigt om oplossingen te verkennen en te vinden voor complexe taken die op gelijkenis gebaseerde retrieval-methoden vaak niet kunnen oplossen.

Toen de geheugenbank werd bevroren en getest op de opgeslagen set om de generalisatie te meten, behaalde MemRL de hoogste nauwkeurigheid in alle benchmarks. In Lifelong Agent Bench verbetert het bijvoorbeeld aanzienlijk de standaard RAG-basislijn voor OS-taken. Dit suggereert dat het systeem niet alleen trainingsgegevens onthoudt, maar ook herinneringen met een lage waarde effectief uitfiltert om ervaringen met een hoog nut te behouden die kunnen worden gegeneraliseerd naar nieuwe situaties.

Een breder beeld voor zelfkweekmiddelen

MemRL past in een groeiend aantal onderzoeken dat zich richt op Memory-Based Markov Decision Processes (M-MDP), een formulering die het ophalen van herinneringen beschouwt als een actieve besluitvormingsstap in plaats van als een passieve zoekfunctie. Door het ophalen te behandelen als een actie die kan worden geoptimaliseerd door middel van versterkend leren, kunnen raamwerken zoals MemRL en vergelijkbare benaderingen zoals Herinneringen maakt de weg vrij voor meer autonome systemen.

Voor zakelijke AI is deze verandering zeer significant. Dit wijst op een toekomst waarin agenten kunnen inzetten met een algemene LLM en zich vervolgens snel kunnen aanpassen aan specifieke bedrijfsworkflows, eigen databases en unieke probleemsets, alleen al door interactie. De belangrijkste verschuiving die we zien zijn raamwerken die applicaties behandelen als dynamische omgevingen waarvan ze kunnen leren.

Deze opkomende mogelijkheden zullen organisaties in staat stellen om consistente, goed presterende agenten te behouden die meegroeien met hun zakelijke behoeften, waardoor het probleem van verouderde modellen wordt opgelost zonder voortdurend dure herscholingskosten te moeten maken.

Dit markeert een transitie in de manier waarop we data waarderen. “In een toekomst waarin statische gegevens binnenkort uitgeput zullen zijn, zal de interactie-ervaring die elke intelligente agent tijdens zijn leven genereert de nieuwe brandstof worden”, aldus Wen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in