Home Nieuws Google ontdekte dat AI-agenten leerden samenwerken als ze trainden tegen onvoorspelbare tegenstanders

Google ontdekte dat AI-agenten leerden samenwerken als ze trainden tegen onvoorspelbare tegenstanders

2
0
Google ontdekte dat AI-agenten leerden samenwerken als ze trainden tegen onvoorspelbare tegenstanders

Het trainen van standaard AI-modellen tegen een verscheidenheid aan tegenstanders – in plaats van het bouwen van complexe, gecodeerde coördinatieregels – is voldoende om coöperatieve multi-agentsystemen te produceren die zich snel aan elkaar aanpassen. Dat is de conclusie van het Paradigms of Intelligence-team van Google, dat stelt dat de aanpak een oplossing biedt een schaalbare en computationeel efficiënte blauwdruk voor bedrijfsimplementaties met meerdere agenten zonder de noodzaak van speciale steigers.

De techniek werkt door LLM-agenten te trainen door middel van gedecentraliseerd versterkend leren tegen een verscheidenheid aan tegenstanders – sommige actief lerend, andere statisch en op regels gebaseerd. In plaats van hardgecodeerde regels gebruiken agenten in-context leren om elke interactie te lezen en hun gedrag in realtime aan te passen.

Waarom multi-agentsystemen met elkaar blijven vechten

Het AI-landschap verschuift snel van geïsoleerde systemen naar vloten van agenten die tegelijkertijd moeten onderhandelen, samenwerken en opereren in een gedeelde ruimte. In systemen met meerdere agenten hangt het succes van een taak af van de interacties en het gedrag van meerdere entiteiten in vergelijking met één enkele agent.

Het grootste probleem bij deze multi-agentsystemen is dat hun interacties vaak concurrerende doelen met zich meebrengen. Omdat deze autonome agenten zijn ontworpen om hun eigen specifieke maatstaven te maximaliseren, is het uiterst moeilijk om ervoor te zorgen dat ze elkaar niet actief ondermijnen in deze scenario’s met gemengde motieven.

Multi-agent Reinforcement Learning (MARL) probeert dit probleem aan te pakken door meerdere AI-agenten te trainen die tegelijkertijd in dezelfde gedeelde omgeving opereren, communiceren en leren. In echte bedrijfsarchitecturen heeft één gecentraliseerd systeem echter zelden inzicht in of controle over elk bewegend onderdeel. Ontwikkelaars moeten vertrouwen op gedecentraliseerde MARL, waarbij elke agent moet weten hoe hij met anderen moet communiceren en alleen toegang heeft tot zijn beperkte lokale gegevens en observaties.

Leren door meerdere agenten te versterken

Een van de grootste problemen met gedecentraliseerde MARL is dat agenten vaak in suboptimale toestanden blijven steken wanneer ze proberen hun eigen specifieke beloningen te maximaliseren. Onderzoekers noemen dit ‘wederzijdse afvalligheid’, gebaseerd op Het gevangenendilemma puzzels gebruikt in de speltheorie. Stel je bijvoorbeeld voor dat twee geautomatiseerde prijsalgoritmen verstrikt raken in een destructieve race to the bottom. Omdat elke agent alleen optimaliseert voor zijn of haar eigen zelfzuchtige gewin, komen ze op een dood spoor terecht en verliest het bredere bedrijf.

Een ander probleem is dat traditionele trainingsframeworks zijn ontworpen voor stationaire omgevingen, wat betekent dat de spelregels en het gedrag van de omgeving relatief vast liggen. In systemen met meerdere agenten is de omgeving, vanuit het perspectief van één agent, inherent onvoorspelbaar en verandert voortdurend terwijl andere agenten tegelijkertijd hun eigen beleid leren en aanpassen.

Hoewel bedrijfsontwikkelaars tegenwoordig vertrouwen op raamwerken die gebruik maken van rigide state-machines, stuiten deze methoden bij complexe implementaties vaak op schaalbaarheidsbarrières.

“De belangrijkste beperking van hardgecodeerde orkestratie is het gebrek aan flexibiliteit”, vertelde Alexander Meulemans, een van de auteurs van het artikel en een senior onderzoekswetenschapper bij het Intelligence Paradigm-team van Google, aan VentureBeat. “Hoewel rigide staatsmachines adequaat functioneren in beperkte domeinen, kunnen ze niet opschalen naarmate de reikwijdte en complexiteit van de inzet van agenten toeneemt. Onze in-contextbenadering vormt een aanvulling op bestaande raamwerken door diep ingebed adaptief sociaal gedrag aan te moedigen tijdens de post-trainingsfase.”

Dit betekent voor ontwikkelaars die LangGraph, CrewAI of AutoGen gebruiken

Frameworks zoals LangGraph vereisen dat ontwikkelaars agenten, statusovergangen en routeringslogica expliciet definiëren als grafieken. LangChain beschrijft deze aanpak als gelijkwaardig aan een toestandsmachinewaarbij agentknooppunten en hun verbindingen de toestands- en overgangsmatrices vertegenwoordigen. De aanpak van Google zet dat model op zijn kop: in plaats van te coderen hoe agenten moeten coördineren, genereert het coöperatief gedrag door middel van training, zodat agenten coördinatieregels kunnen afleiden op basis van de context.

De onderzoekers bewezen dat ontwikkelaars geavanceerde coöperatieve multi-agentsystemen kunnen realiseren met behulp van exact dezelfde standaard sequentiemodellering en versterkende leertechnieken die de huidige basismodellen al ondersteunen.

Het team valideerde het concept met behulp van een nieuwe methode genaamd Predictive Policy Improvement (PPI), hoewel Meulemans opmerkte dat het onderliggende principe model-agnostisch is.

“In plaats van een kleine groep agenten in vaste rollen op te leiden, zouden teams een trainingsroutine met ‘gemengde groepen’ moeten implementeren”, zegt Meulemans. “Ontwikkelaars kunnen deze dynamiek reproduceren met behulp van standaard, kant-en-klare leeralgoritmen voor versterking (zoals GRPO).”

Door de agent bloot te stellen aan interacties met verschillende medespelers (d.w.z. verschillende systeemopdrachten, aangepaste parameters of onderliggend beleid), creëerde het team een ​​krachtige leeromgeving. Dit resulteert in robuuste strategieën bij de interactie met nieuwe partners en zorgt ervoor dat leren door meerdere agenten leidt tot stabiel coöperatief gedrag op de lange termijn.

Hoe onderzoekers bewijzen dat het werkt

Om een ​​agent te bouwen die met succes de strategieën van medespelers afleidt, creëerden de onderzoekers een gedecentraliseerde trainingsomgeving waarin de AI het moest opnemen tegen een zeer diverse en diverse groep tegenstanders, bestaande uit actieve leermodellen en op regels gebaseerde statische programma’s. Deze afgedwongen diversiteit vereist dat de agent dynamisch weet met wie hij communiceert en zijn gedrag onmiddellijk aanpast, volledig gebaseerd op de context van de interactie.

diverse leeromgevingen met meerdere agenten

Diverse multi-agent training

Bij bedrijfsontwikkelaars roept de uitdrukking ‘leren in context’ vaak zorgen op over de opgeblazenheid van contextvensters, API-kosten en latentie, vooral wanneer het venster al vol zit met gegevens en RAG-systeemopdrachten (Retrieval-Augmented Generation). Meulemans verduidelijkte echter dat deze techniek zich eerder richt op efficiëntie dan op het aantal tokens. “Onze methode richt zich op het optimaliseren van de manier waarop de agent de beschikbare context gebruikt tijdens de post-training, in plaats van strikt een groter contextvenster te eisen,” zei hij. Door agenten te trainen in het ontleden van hun interactiegeschiedenis om strategieën af te leiden, gebruiken ze de toegewezen context adaptiever, zonder dat daarvoor langere contextvensters nodig zijn dan bij bestaande applicaties.

Door het Iterated Prisoner’s Dilemma (IPD) als maatstaf te gebruiken, bereikten de onderzoekers een sterke en stabiele samenwerking zonder gebruik te maken van traditionele stokken. Er is geen kunstmatige scheiding tussen de meta en de innerlijke leerling, en het is niet nodig om hardgecodeerde aannames te doen over hoe het algoritme van de tegenstander werkt. Omdat de agent zich in realtime aanpast en de gewichten van het onderliggende kernmodel in de loop van de tijd bij veel interacties bijwerkt, vervult de agent feitelijk beide rollen tegelijkertijd. In feite presteren agenten beter als ze geen informatie krijgen over hun tegenstanders en gedwongen worden hun gedrag met vallen en opstaan ​​aan te passen.

Training voor meerdere agenten

Training voor meerdere agenten werkt het beste als u een diverse groep agenten krijgt en hun eigen regels mag verkennen (bron: arXiv)

De rol van de ontwikkelaar verschuift van regelsschrijver naar architect

De onderzoekers zeggen dat hun werk de kloof overbrugt tussen multi-agent versterkingsleren en moderne fundamentele modeltrainingsparadigma’s. “Omdat het onderliggende model van nature leren in context vertoont en is getraind in een verscheidenheid aan taken en gedragingen, demonstreren onze bevindingen een schaalbaar en computationeel efficiënt pad naar de opkomst van coöperatief sociaal gedrag met behulp van standaard gedecentraliseerde leertechnieken”, schreven ze.

Nu het vertrouwen op het aanpassen van gedrag in de context de standaard wordt in plaats van het hardcoderen van strikte regels, zal het menselijke element in AI-engineering fundamenteel veranderen. “De rol van een AI-applicatieontwikkelaar kan zich uitbreiden van het ontwerpen en beheren van individuele interactieregels tot het ontwerpen en bieden van architectonisch toezicht op hoog niveau voor trainingsomgevingen”, aldus Meulemans. Deze transitie zorgt ervoor dat ontwikkelaars niet langer beperkte regels schrijven, maar een strategische rol spelen en brede parameters definiëren die ervoor zorgen dat agenten in elke situatie leren behulpzaam, veilig en samenwerkend te zijn.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in