Home Nieuws Naast wiskunde en coderen: nieuwe RL-frameworks helpen LLM-agenten te trainen voor complexe...

Naast wiskunde en coderen: nieuwe RL-frameworks helpen LLM-agenten te trainen voor complexe taken in de echte wereld

16
0
Naast wiskunde en coderen: nieuwe RL-frameworks helpen LLM-agenten te trainen voor complexe taken in de echte wereld

Onderzoekers van de Universiteit voor Wetenschap en Technologie van China hebben iets nieuws ontwikkeld versterkend leren (RL) raamwerk dat helpt bij het trainen van grote taalmodellen (LLM) voor complexe agenttaken die verder gaan dan goed gedefinieerde problemen zoals wiskunde en coderen.

Hun raamwerk, R1-agentis compatibel met populaire RL-algoritmen en laat een grote verbetering zien bij redeneertaken waarvoor meerdere ophaalfasen en multi-ronde-interacties met tools nodig zijn.

Dit raamwerk bouwt voort op een herdefinitie van het RL-paradigma, waarbij rekening wordt gehouden met de dynamische aard van agenttoepassingen die interactie vereisen met evoluerende omgevingen en imperfecte informatie. Deze framing lijkt meer op toepassingen in de echte wereld en kan van groot nut zijn voor agenttaken in bedrijfsomgevingen.

Heroverweging van versterkend leren voor agenten

RL is de basis geworden van de LLM-training voor goed gedefinieerde redeneertaken. Op het gebied van wiskunde en coderen ontvangen modellen duidelijke signalen: het antwoord is goed of fout. Dit maakt het relatief eenvoudig om gedrag te belonen of te bestraffen.

Maar deze aanpak heeft moeite met taken van agenten die vereisen dat het model in een interactieve omgeving werkt, een dynamisch geheugen voor gesprekken ontwikkelt, in meerdere stappen redeneert en reageert op onvoorspelbare feedback. Het trainen van agenten met RL voor deze scenario’s brengt unieke uitdagingen met zich mee, vooral bij interacties met meerdere beurten waarbij het ontwerpen van effectieve beloningen complex is en getrainde agenten er vaak niet in slagen om te generaliseren over de rommelige en onvoorspelbare aard van echte omgevingen.

Om deze uitdaging aan te gaan, hebben onderzoekers van de Universiteit voor Wetenschap en Technologie het basisraamwerk van RL opnieuw bekeken, bekend als Markov-beslissingsprocessen (MDP). MDP modelleert besluitvorming met behulp van vier hoofdcomponenten: toestandsruimte (de reeks mogelijke toestanden waarin een agent bestaat); actieruimte (wat de agent kan doen); waarschijnlijkheid van toestandsovergang (de toestand die het meest waarschijnlijk een actie zal veroorzaken); en de beloningsfunctie (of de uitkomst goed of slecht is). Dit artikel stelt een uitbreiding van dit raamwerk voor om beter geschikt te zijn voor LLM-agenten.

In de nieuwe formulering wordt de toestandsruimte uitgebreid en omvat niet alleen de huidige toestand (de huidige reeks tokens gegenereerd door het model), maar de hele geschiedenis van omgevingsinteracties en feedback. Acties gaan nog steeds in essentie over het genereren van tekst, maar specifieke tekstreeksen kunnen nu externe tools activeren, zoals API-aanroepen. Staatstransities worden onvoorspelbaar of ‘stochastisch’, omdat hun uitkomsten niet alleen afhangen van de tokens die door het model worden voorspeld, maar ook van de reactie van de omgeving, die afhankelijk is van externe factoren. Ten slotte worden beloningssystemen gedetailleerder, waarbij tussentijdse ‘procesbeloningen’ worden opgenomen voor het succesvol voltooien van stappen in het proces, in plaats van slechts één beloning aan het eind. Hierdoor worden agenten frequenter en nauwkeuriger begeleid tijdens de training.

Dit laatste deel is erg belangrijk en behandelt het probleem van de ‘schaarse beloningen’ waarmee de meeste RL-frameworks worden geconfronteerd. Wanneer de agent een enkel beloningssignaal ontvangt op basis van de uiteindelijke uitkomst, leert de agent niet van de juiste en onjuiste tussenstappen die hij tot nu toe heeft gezet. Procesbeloningen lossen dit probleem op door bij deze tussenstappen feedbacksignalen te geven, waardoor het leerproces veel efficiënter wordt.

“Deze uitbreiding is van cruciaal belang voor het mogelijk maken van versterkende leeralgoritmen om geavanceerde agenten te trainen die in staat zijn tot complexe meerstapsredeneringen en interacties in dynamische omgevingen”, schreven de onderzoekers in hun paper.

R1-Agent-framework

Gebaseerd op de uitgebreide definitie van MDP, ontwikkelden de onderzoekers R1-agentflexibel en eenvoudig te gebruiken trainingsplatform voor op RL gebaseerde LLM-agenten. Het breidt traditionele single-loop RL-frameworks uit om multi-loop, interactieve agenttaken uit te voeren, waardoor naadloze integratie met diverse omgevingen mogelijk wordt.

Het belangrijkste verschil ligt in de ‘lanceringsfase’, wanneer de agent een reactie genereert. Bij RL met één lus genereert het model één keer een antwoord. Bij multi-turn RL omvat het proces een complexe reeks heen-en-weer-interacties.

R1-Agent-framework (bron: arXiv)

Agent-R1 realiseert deze flexibele lancering in meerdere rondes met twee kernmodules: Tool en ToolEnv. Toolmodules fungeren als uitvoerders van bepaalde acties, zoals het aanroepen van een API of het openen van een database. Wanneer de tool wordt aangeroepen, voert hij zijn acties uit en retourneert onmiddellijke, onbewerkte resultaten. De ToolEnv-module is daarentegen een orkestrator en tolk. Het neemt de uitvoer van de tool en bepaalt hoe deze resultaten de status van de agent en de algemene taakvoortgang beïnvloeden. ToolEnv ​​beheert statusovergangen, berekent beloningssignalen op basis van toolresultaten en verpakt nieuwe statusinformatie voor de agent.

Kortom, wanneer een actie is voltooid rapporteert de Tool ‘wat er is gebeurd’, terwijl de ToolEnv ​​bepaalt ‘wat dit resultaat betekent voor de agent en de taak’.

Agent-R1 in actie

De onderzoekers testten Agent-R1 op de uitdagende taak van het beantwoorden van multi-hop-vragen, waarvoor complexe redeneringen nodig zijn, het ophalen van informatie uit meerdere documenten en besluitvorming in meerdere stappen. Ze trainden Qwen2.5-3B-Instruct op de QA-dataset en evalueerden de prestaties ervan Hotpotqa En 2WikiMultihopQA gegevensset. Ze hebben het ook getest op de Musique-dataset, die zich buiten het taakdomein bevindt waarvoor de agent is getraind.

Ze vergeleken verschillende RL-algoritmen die met R1-Agent waren getraind met twee basislijnen: Naive RAG, een ophaalmethode in één keer waarbij LLM antwoordt op basis van een reeks opgehaalde documenten, en Basic Tool Calls, die gebruikmaakt van de eigen functieaanroepmogelijkheden van het model zonder speciale RL-training.

R1-agentprestaties

Modellen die zijn getraind met het R1-Agent-framework (onder de horizontale lijn) presteren aanzienlijk beter dan de basislijn (bron: arXiv)

De resultaten laten zien dat alle RL-getrainde agenten substantieel beter presteren dan de basisprestaties. GRPO, een RL-algoritme dat wordt gebruikt in geavanceerde redeneermodellen zoals DeepSeek-R1levert de beste algemene prestaties.

“Deze resultaten valideren sterk de werkzaamheid van R1-Agent bij het trainen van krachtige LLM-agenten via end-to-end RL, wat consistente en substantiële winsten ten opzichte van de basislijn aantoont in diverse datasets en RL-algoritmen”, schreven de onderzoekers.

Deze bevinding zou van groot belang kunnen zijn voor bedrijven, omdat er een sterke drang bestaat om RL en redenering toe te passen buiten welomschreven domeinen. Frameworks die zijn ontworpen om rommelige multi-turn interacties met gebruikers en dynamische omgevingen af ​​te handelen, kunnen de weg vrijmaken voor nieuwe agenten die in staat zijn complexe problemen uit de echte wereld op te lossen.

“We hopen dat Agent-R1 een basis biedt voor toekomstig werk aan schaalbare en geïntegreerde RL-training voor agent-LLM’s”, concludeerden de onderzoekers.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in