Onderzoekers van het Tongyi Lab van Alibaba hebben een nieuw raamwerk ontwikkeld voor autonoom evoluerende agenten die hun eigen trainingsgegevens creëren door hun applicatieomgeving te verkennen. kader, AgentEvolvermaakt gebruik van de kennis en het redeneervermogen van grote taalmodellen voor leren in eigen tempo, waardoor de hoge kosten en handmatige inspanningen worden overwonnen die doorgaans nodig zijn om taakspecifieke datasets te verzamelen.
Uit experimenten blijkt dat AgentEvolver, vergeleken met traditionele raamwerken op basis van versterkend leren, efficiënter is in het verkennen van zijn omgeving, beter gebruik maakt van gegevens en zich sneller aanpast aan de applicatieomgeving. Voor bedrijven is dit belangrijk omdat het de drempel verkleint voor het opleiden van agenten voor op maat gemaakte applicaties, waardoor geavanceerde en aanpasbare AI-assistenten toegankelijker worden voor meer organisaties.
Hoge kosten voor het trainen van AI-agenten
Versterkend leren is het primaire paradigma geworden voor het trainen van LLM’s om op te treden als agenten die kunnen communiceren met digitale omgevingen en kunnen leren van feedback. De ontwikkeling van agenten met RL staat echter voor fundamentele uitdagingen. Ten eerste is het verzamelen van de vereiste trainingsdatasets vaak erg duur, waardoor er veel handmatige arbeid nodig is om taken te instantiëren, vooral in nieuwe of propriëtaire softwareomgevingen waar geen kant-en-klare datasets beschikbaar zijn.
Ten tweede vereisen de RL-technieken die gewoonlijk voor LLM worden gebruikt dat het model veel vallen en opstaan moet ondergaan om effectief te kunnen leren. Dit proces is computationeel duur en inefficiënt. Als gevolg hiervan blijft het trainen van LLM-agenten die in staat zijn tot RL moeilijk en duur, waardoor de toepassing ervan in gespecialiseerde bedrijfsomgevingen wordt beperkt.
Hoe AgentEvolver werkt
Het belangrijkste idee achter AgentEvolver is om het model meer autonomie te geven in zijn leerproces. De onderzoekers omschrijven het als een ‘zichzelf ontwikkelend agentsysteem’, ontworpen om ‘een autonome en efficiënte evolutie van capaciteiten te bereiken door middel van omgevingsinteracties’. Het maakt gebruik van de redeneerkracht van LLM om een trainingslus in eigen tempo te creëren, waardoor agenten voortdurend kunnen verbeteren door rechtstreeks met hun doelomgeving te communiceren zonder de noodzaak van vooraf gedefinieerde taken of beloningsfuncties.
“We stellen ons een agentsysteem voor waarin LLM actief de verkenning, taakcreatie en prestatieverfijning begeleidt”, schreven de onderzoekers hun papier.
Het proces van zelfevolutie wordt aangedreven door drie samenwerkende kernmechanismen.
De eerste is vraag jezelf afwaarbij de agent zijn omgeving verkent om de grenzen van zijn functie te ontdekken en nuttige toestanden te identificeren. Het is alsof een nieuwe gebruiker op een app klikt om te zien wat er mogelijk is. Op basis van deze verkenning genereert de agent een diverse reeks taken die aansluiten bij de algemene voorkeuren van de gebruiker. Dit vermindert de behoefte aan handgemaakte datasets en zorgt ervoor dat agenten en hun taken samen kunnen evolueren, waardoor ze steeds complexere uitdagingen kunnen aanpakken.
Volgens Yunpeng Zhai, een onderzoeker bij Alibaba en een van de auteurs van het artikel, die met VentureBeat sprak, verschuift het mechanisme voor zelfonderzoek het model effectief van ‘dataconsument naar dataproducent’, waardoor de tijd en kosten die nodig zijn om agenten in propriëtaire omgevingen in te zetten aanzienlijk worden verminderd.
Het tweede mechanisme is autonome navigatiewat de efficiëntie van de verkenning vergroot door ervaringen uit het verleden te hergebruiken en te generaliseren. AgentEvolver haalt inzichten uit succesvolle en mislukte pogingen en gebruikt deze om toekomstige acties te begeleiden. Als een agent bijvoorbeeld een API-functie probeert te gebruiken die niet in de toepassing aanwezig is, registreert de agent dit als ervaring en leert hij het bestaan van de functie te verifiëren voordat hij deze in de toekomst probeert te gebruiken.
derde mechanisme, jezelf toeschrijvenverbeter de leerefficiëntie door meer gedetailleerde feedback te geven. In plaats van eenvoudigweg het uiteindelijke succes of falen aan te geven (een gangbare praktijk bij RL die tot weinig beloning kan leiden), gebruikt dit mechanisme LLM om de bijdrage van elke individuele actie in een uit meerdere stappen bestaande taak te beoordelen. Het bepaalt achteraf of elke stap positief of negatief heeft bijgedragen aan het eindresultaat, waardoor agenten gedetailleerde feedback krijgen die het leren versnelt.
Dit is belangrijk voor gereguleerde industrieën, omdat de manier waarop agenten problemen oplossen net zo belangrijk is als de resultaten. “In plaats van leerlingen alleen te belonen voor het uiteindelijke antwoord, beoordelen we ook de duidelijkheid en juistheid van elke stap in hun redenering”, legt Zhai uit. Dit vergroot de transparantie en moedigt agenten aan om robuustere en controleerbare probleemoplossingspatronen aan te nemen.
“Door trainingsinitiatieven te verschuiven van door mensen ontworpen pijpleidingen naar LLM-geleide zelfontwikkeling, vestigt AgentEvolver een nieuw paradigma dat de weg vrijmaakt voor intelligente systemen die schaalbaar, kosteneffectief en voortdurend verbeterend zijn”, aldus de onderzoekers.
Het team heeft ook een alomvattend, praktisch trainingskader ontwikkeld dat deze drie mechanismen integreert. Een belangrijk onderdeel van deze stichting is Contextmanagercomponenten die het geheugen en de interactiegeschiedenis van de agent controleren. Hoewel de huidige benchmarks een beperkt aantal tools testen, kunnen bedrijfsomgevingen feitelijk duizenden API’s bevatten.
Zhai erkende dat dit een grote uitdaging op dit gebied is, maar merkte op dat AgentEvolver is ontworpen om uitbreidbaar te zijn. “Het benutten van zeer grote actieruimtes zal altijd rekenproblemen met zich meebrengen, maar de AgentEvolver-architectuur biedt een duidelijk pad naar schaalbare redeneerhulpmiddelen in bedrijfsomgevingen”, zegt hij.
Een efficiënter pad naar agenttraining
Om de effectiviteit van hun raamwerk te meten, hebben de onderzoekers het getest Toepassingswereld En BFCLv3twee benchmarks waarbij agenten langdurige, uit meerdere stappen bestaande taken moeten uitvoeren met behulp van externe tools. Ze gebruiken een model van Alibaba Qwen-familie2.5 (Parameters 7B en 14B) en vergelijk de prestaties ervan met een basismodel dat is getraind met GRPO, een populaire RL-techniek die wordt gebruikt om redeneermodellen te ontwikkelen zoals DeepSeek-R1.
De resultaten laten zien dat het integreren van alle drie de mechanismen in AgentEvolver tot grote prestatieverbeteringen leidt. Voor model 7B is de gemiddelde score met 29,4% gestegen, en voor model 14B is de gemiddelde score met 27,8% gestegen ten opzichte van de basiswaarde. Dit raamwerk verbetert op consistente wijze de redeneer- en taakuitvoeringsmogelijkheden van het model in beide benchmarks. De belangrijkste verbetering komt van de module voor zelfvragen, die onafhankelijk een verscheidenheid aan trainingstaken genereert en het probleem van gegevensschaarste direct aanpakt.
De experimenten laten ook zien dat AgentEvolver op efficiënte wijze grote hoeveelheden hoogwaardige trainingsgegevens kan synthetiseren. De door de zelfbevragingsmodule gegenereerde taken bleken divers genoeg om zelfs met kleine hoeveelheden gegevens een goede trainingsefficiëntie te bereiken.
Voor ondernemingen biedt dit de mogelijkheid om agenten te creëren voor op maat gemaakte applicaties en interne workflows, terwijl de noodzaak voor handmatige gegevensannotatie wordt geminimaliseerd. Door doelstellingen op hoog niveau te bieden en agenten hun eigen trainingservaringen te laten genereren, kunnen organisaties eenvoudiger en kosteneffectiever aangepaste AI-assistenten ontwikkelen.
“De combinatie van algoritmisch ontwerp en technische pragmatiek positioneert AgentEvolver als een onderzoeksvoertuig en herbruikbare basis voor het bouwen van adaptieve, tool-enabled agenten”, concludeerden de onderzoekers.
Vooruitkijkend is het uiteindelijke doel veel groter. “Een ‘enkel model’ dat echt in elke softwareomgeving kan worden gebruikt en dat van de ene op de andere dag onder de knie kan krijgen, is zeker de heilige graal van agent AI”, aldus Zhai. “Wij zien AgentEvolver als een belangrijke stap in die richting.” Hoewel die toekomst nog steeds doorbraken vereist in het modelleren van redeneringen en infrastructuur, effenen opkomende benaderingen al de weg.


