Home Nieuws Het DreamGym Meta-framework traint AI-agenten in een gesimuleerde wereld om de kosten...

Het DreamGym Meta-framework traint AI-agenten in een gesimuleerde wereld om de kosten van versterkend leren te verlagen

17
0
Het DreamGym Meta-framework traint AI-agenten in een gesimuleerde wereld om de kosten van versterkend leren te verlagen

Onderzoekers van Meta, de Universiteit van Chicago en UC Berkeley hebben een nieuw raamwerk ontwikkeld dat de hoge kosten, de complexiteit van de infrastructuur en de onbetrouwbare feedback aanpakt die gepaard gaan met het gebruik van versterkend leren (RL) om agenten van grote taalmodellen (LLM) te trainen. kader, Droom spelhet simuleren van RL-omgevingen om agenten te trainen voor complexe toepassingen. Naarmate het trainingsproces vordert, past het raamwerk de moeilijkheidsgraad van de taak dynamisch aan, waardoor de agent geleidelijk leert hoe hij meer uitdagende problemen kan oplossen naarmate hij vordert.

Experimenten uitgevoerd door het onderzoeksteam tonen aan dat DreamGym de RL-training substantieel verbetert, zowel in volledig synthetische omgevingen als in scenario’s waarin het model zijn simulatieleren moet toepassen op de echte wereld. In situaties waarin RL mogelijk maar duur is, zal het de prestaties evenaren van populaire algoritmen die alleen synthetische interacties gebruiken, waardoor de kosten van gegevensverzameling en omgevingsinteracties aanzienlijk worden verlaagd.

Deze aanpak is van cruciaal belang voor bedrijven, omdat ze hiermee agenten kunnen trainen voor op maat gemaakte applicaties, terwijl ze de complexiteit van het opzetten en runnen van een live RL-omgeving vermijden.

De uitdagingen van het trainen van LLM-agenten

Versterkend leren is een sleuteltechniek voor het trainen van LLM’s om complexe taken in agentomgevingen uit te voeren, zoals webnavigatie, toolgebruik en robotica. Hierdoor kan het model leren van directe interacties en ervaringen, die verder gaan dan de statische datasets die in de pre-training worden gebruikt.

RL voor agenttraining is echter nog steeds moeilijk. Toepassingen in de echte wereld omvatten vaak lange reeksen acties met schaarse signalen, wat betekent dat de agent pas positieve signalen ontvangt na een lange reeks correcte acties.

Het verzamelen van voldoende diverse en gevalideerde gegevens is ook kostbaar, omdat deskundigen vaak taken moeten verifiëren en de resultaten moeten annoteren. En de infrastructuur die nodig is om een ​​liveomgeving voor grootschalige RL-training te creëren, kan zeer complex en duur zijn. Om nog maar te zwijgen van het feit dat interactie met het systeem rechtstreeks risico’s met zich meebrengt, omdat de verkeerde actie (zoals het verwijderen van een bestand) onherstelbare schade kan veroorzaken.

“Deze beperkingen maken het bouwen van een universeel, schaalbaar systeem voor het trainen van agenten met RL een open en dringende uitdaging”, schreven de onderzoekers.

DreamGym daagt deze modellen rechtstreeks uit door volledig vergelijkbare prestaties in simulaties te leveren, waardoor de infrastructuurlast wordt geëlimineerd die de meeste bedrijven ervan weerhoudt RL te adopteren – en teams een praktisch pad te geven om agenten te trainen zonder dure of risicovolle live-omgevingen aan te raken.

Hoe DreamGym werkt

De onderzoekers omschrijven DreamGym als “een uniform en schaalbaar RL-framework dat diverse ervaringsgegevens online samenbrengt om efficiënte en effectieve LLM-agenttraining mogelijk te maken.” Het is gebouwd op drie kerncomponenten die samenwerken om gecontroleerde en effectieve trainingslussen te creëren.

De eerste component is een ‘op redeneren gebaseerd ervaringsmodel’ dat de dynamiek van de doelomgeving vertaalt naar tekstuele ruimte. Dit model fungeert als een applicatieomgevingsimulator. In plaats van interactie met de echte omgeving, wat duur is, interageert de agent met dit model, dat consistente statusovergangen en feedback produceert op basis van de acties van de agent.

De onderzoekers beweren dat de training van agenten geen absoluut realistische omgeving vereist, maar eerder gegevens die “voldoende divers, informatief en causaal gefundeerd” zijn. Bij een webwinkeltaak synthetiseert het model bijvoorbeeld een lijst met elementen op een schone pagina, in plaats van onbewerkte HTML-code te verwerken. Deze abstracte benadering maakt trainingservaringsmodellen zeer efficiënt, waarbij slechts een kleine hoeveelheid openbare gegevens nodig is.

Het tweede onderdeel is de ‘ervaringsherhalingsbuffer’, die fungeert als dynamisch geheugen. Aan het begin van het trainingsproces wordt de buffer gevuld met offline gegevens om belangrijke context te bieden en wordt deze voortdurend bijgewerkt met nieuwe synthetische trajecten die tijdens de training worden gegenereerd. Deze buffers helpen bij het begeleiden van voorspellingen van ervaringsmodellen, waardoor synthetische ervaringen divers en op feiten gebaseerd blijven.

Het derde onderdeel, de ‘curriculumtaakgenerator’, werkt samen met het ervaringsmodel om op adaptieve wijze nieuwe, steeds uitdagender taken te creëren. Het identificeert taken waarvoor de prestaties van de agent gemengd zijn (wat aangeeft dat de taken moeilijk maar oplosbaar zijn) en genereert variaties om de capaciteiten van de agent te vergroten.

Samen creëren deze componenten een gesloten systeem voor schaalbare agenttraining. “Door interactie, geheugen en adaptieve online taakgeneratie samen te brengen, pakt DreamGym hardnekkige uitdagingen aan die de RL-training voor LLM-agenten beperken: onbetaalbare kosten, schaarste aan diverse taken, onstabiele beloningssignalen en zware eisen aan de infrastructuur”, aldus de onderzoekers.

DreamGym in actie

De onderzoekers evalueerden DreamGym op basis van verschillende benchmarks voor agenten, waaronder WebShop (e-commerce), ALFWorld (embody controles) en WebArena (realistische webinteracties). Ze gebruiken Oud 3 En Qwen 2.5 model als de ruggengraat van de agent en vergelijkt DreamGym met verschillende traditionele trainingsstrategieën. Deze omvatten offline methoden zoals begeleide verfijning (SFT) en directe voorkeursoptimalisatie (DPO), evenals online RL-algoritmen zoals Proximal Policy Optimization (PPO) en Group Relative Policy Optimization (GRPO), die agenten verbeteren door directe omgevingsinteracties.

DreamGym laat zijn grootste voordelen zien in omgevingen als WebArena, waar het moeilijk is om grootschalige RL-infrastructuur op te zetten. Agenten die volledig in DreamGym zijn getraind, behalen meer dan 30% hogere succespercentages vergeleken met de basismethode, die worstelt met weinig beloningen en beperkte verkenning in echte omgevingen. De onderzoekers zeggen dat dit aantoont dat DreamGym een ​​mechanisme is dat RL-training “haalbaar maakt in domeinen die voorheen moeilijk waren vanwege inherente taken en technische beperkingen.”

In omgevingen waar RL wordt ondersteund maar duur, presteren agenten die zijn getraind met DreamGym gelijkwaardig aan agenten die zijn getraind met GRPO en PPO, maar zonder dure interacties met de externe omgeving. Het team introduceerde ook een sim-to-real-aanpak, DreamGym-S2R, waarbij de agent eerst wordt getraind in een synthetische omgeving en vervolgens wordt verfijnd met een kleine hoeveelheid gegevens uit de echte wereld. Deze strategie resulteert in prestatieverbeteringen van meer dan 40% vergeleken met helemaal opnieuw trainen in een echte omgeving met minder dan 10% externe gegevens. Dit biedt een schaalbare ‘warme start’ voor het trainen van agenten voor algemene doeleinden.

Ten slotte vertoont het raamwerk een sterke generalisatie. Een agent die is opgeleid voor een taak in het ene domein, zoals WebShop, kan de vaardigheden die hij leert met succes overbrengen naar een ander domein, zoals WebArena. De onderzoekers suggereren dat dit komt doordat de DreamGym-agent leert in een “abstracte meta-representatieruimte, waardoor de agent domein-agnostisch gedrag kan leren in plaats van specifieke taakpatronen te onthouden.”

Terwijl DreamGym zich nog in de beginfase bevindt, laat het zien dat simulatieomgevingen grote voordelen kunnen bieden voor het opleiden van agenten. In de praktijk kan een bedrijf een klein aantal trajecten en beschrijvingen verzamelen voor de taken die het wil automatiseren. Bedrijven kunnen dit kleine zaadje vervolgens gebruiken om het DreamGym-framework op te starten voor schaalbare en voorbeeldefficiënte agenttraining.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in