Agents die op de huidige modellen zijn gebouwd, gaan vaak kapot als gevolg van eenvoudige wijzigingen (nieuwe bibliotheken, aanpassingen aan de workflow) en vereisen menselijke ingenieurs om deze te repareren. Dit is een van de grootste uitdagingen bij het implementeren van AI voor bedrijven: het creëren van agenten die zich kunnen aanpassen aan dynamische omgevingen zonder voortdurend samen te hoeven werken. Hoewel de huidige modellen krachtig zijn, zijn ze grotendeels statisch.
Om dit te ondervangen hebben onderzoekers van de Universiteit van Californië, Santa Barbara zich ontwikkeld Groep Groeiagenten (GEA), een nieuw raamwerk dat groepen AI-agenten in staat stelt zich samen te ontwikkelen, ervaringen te delen en hun innovaties te hergebruiken om zich in de loop van de tijd onafhankelijk te ontwikkelen.
Bij experimenten met complexe codeer- en software-engineeringtaken presteert GEA aanzienlijk beter dan de bestaande raamwerken voor zelfverbetering. Misschien wel het allerbelangrijkste voor zakelijke besluitvormers is dat deze systemen autonoom agenten ontwikkelen die de prestaties van raamwerken die nauwgezet door experts zijn ontworpen, evenaren of zelfs overtreffen.
Beperkingen van de ‘lone wolf’-evolutie
De meeste ervan bestaan agent AI-systeem vertrouwend op een vaste architectuur ontworpen door ingenieurs. Deze systemen hebben vaak moeite om de capaciteitslimieten te overschrijden die door hun oorspronkelijke ontwerp zijn opgelegd.
Om dit te ondervangen hebben onderzoekers lang geprobeerd om zichzelf ontwikkelende agenten te creëren die autonoom hun eigen code en structuur kunnen aanpassen om hun aanvankelijke beperkingen te overwinnen. Deze mogelijkheid is belangrijk voor het omgaan met open omgevingen waarin agenten voortdurend naar nieuwe oplossingen moeten zoeken.
De huidige benaderingen van zelfontwikkeling vertonen echter grote structurele tekortkomingen. Zoals de onderzoekers in hun artikel opmerken, zijn de meeste systemen geïnspireerd door biologische evolutie en ontworpen rond ‘individueel-gecentreerde’ processen. Deze methoden maken doorgaans gebruik van een boomgestructureerde aanpak: één ‘ouder’-agent wordt geselecteerd om nakomelingen te produceren, waardoor verschillende evolutionaire takken ontstaan die van elkaar geïsoleerd blijven.
Door deze isolatie ontstaat een silo-effect. Agenten op één vertakking hebben geen toegang tot gegevens, tools of workflows die zijn ontdekt door agenten op een parallelle vertakking. Als een bepaalde lijn er niet in slaagt om voor de volgende generatie te worden geselecteerd, zullen alle waardevolle ontdekkingen die door dat bureau zijn gedaan, zoals nieuwe debugging-tools of efficiëntere testworkflows, daarmee verloren gaan.
In hun artikel betwijfelen de onderzoekers de noodzaak om deze biologische metafoor te volgen. “AI-agentia zijn geen biologische individuen”, beweren ze. “Waarom blijft hun evolutie beperkt door biologische paradigma’s?”
Collectieve intelligentie van groepsevoluerende agenten
GEA verandert dit paradigma door groepen agenten, en niet individuen, te behandelen als de fundamentele eenheid van evolutie.
Het proces begint met het selecteren van een groep bovenliggende agenten uit het bestaande archief. Om een gezonde mix van stabiliteit en innovatie te garanderen, selecteert GEA deze agenten op basis van een gecombineerde score van prestaties (competentie bij het voltooien van taken) en nieuwheid (hoe verschillend hun capaciteiten zijn van die van anderen).
In tegenstelling tot traditionele systemen waarbij agenten alleen van hun directe ouders leren, creëert GEA een gedeelde collectieve reeks ervaringen. Deze verzameling bevat de evolutiesporen van alle leden van de bovenliggende groep, inclusief codewijzigingen, succesvolle taakoplossingen en de geschiedenis van het aanroepen van tools. Elke agent in de groep krijgt toegang tot deze collectieve geschiedenis, zodat ze kunnen leren van de doorbraken en fouten van hun leeftijdsgenoten.
Een ‘Reflectiemodule’, ondersteund door een uitgebreid taalmodel, analyseert deze collectieve geschiedenis om groepspatronen te identificeren. Als één agent bijvoorbeeld een goed presterende foutopsporingstool vindt terwijl een andere agent een testworkflow verbetert, zal het systeem beide inzichten extraheren. Op basis van deze analyse genereert het systeem ‘evolutionaire richtlijnen’ op hoog niveau die de vorming van kindergroepen begeleiden. Dit zorgt ervoor dat de volgende generatie de gecombineerde krachten van al hun ouders heeft, en niet alleen de eigenschappen van één bloedlijn.
Deze bijenkorf-mind-aanpak werkt echter het beste als succes objectief is, bijvoorbeeld bij codeeropdrachten. “Voor minder deterministische domeinen (bijvoorbeeld creatieve generatie) is het evaluatiesignaal zwakker”, vertelden Zhaotian Weng en Xin Eric Wang, co-auteurs van het artikel, in schriftelijke commentaren aan VentureBeat. “Het blindelings delen van output en ervaringen kan aanleiding geven tot ervaringen van lage kwaliteit die als afleiding werken. Dit suggereert de behoefte aan sterkere mechanismen voor het filteren van ervaringen” voor subjectieve taken.
GEA is in actie
De onderzoekers testten GEA tegen de huidige state-of-the-art zelfontwikkelende basislijn, namelijk Darwins Gödelmachine (DGM), met twee strenge benchmarks. De resultaten laten een enorme sprong in capaciteit zien zonder dat het aantal gebruikte agenten toeneemt.
Deze gezamenlijke aanpak maakt het systeem ook robuuster in het geval van mislukkingen. In hun experimenten hebben de onderzoekers de agent opzettelijk kapot gemaakt door handmatig bugs in de implementatie ervan te introduceren. GEA kon deze kritieke bug in gemiddeld 1,4 iteraties oplossen, terwijl de basislijn 5 iteraties vereiste. Dit systeem maakt effectief gebruik van ‘gezonde’ groepsleden om gecompromitteerde leden te diagnosticeren en te patchen.
Op SWE-bench Verified, een benchmark bestaande uit echte GitHub-problemen inclusief bugs en functieverzoeken, behaalde GEA een succespercentage van 71,0%, vergeleken met een basissuccespercentage van 56,7%. Dit betekent een aanzienlijke toename van de autonome engineeringdoorvoer, wat betekent dat agenten veel beter in staat zijn om software-onderhoud in de echte wereld af te handelen. Op dezelfde manier behaalde GEA op Polyglot, dat het genereren van code in verschillende programmeertalen test, 88,3% vergeleken met een basislijn van 68,3%, wat wijst op een hoog aanpassingsvermogen aan verschillende technologieën.
Voor het onderzoeks- en ontwikkelingsteam van het bedrijf was de belangrijkste bevinding dat GEA AI in staat stelt zichzelf net zo effectief te ontwerpen als menselijke ingenieurs. Op de SWE-bank kwam het succespercentage van GEA van 71,0% effectief overeen met de prestaties Open handentop open source raamwerk ontworpen door mensen. Op Polyglot presteerde GEA aanzienlijk beter dan Aider, een populaire codeerassistent, die 52,0% behaalde. Dit suggereert dat organisaties uiteindelijk hun afhankelijkheid van grote teams van snelle ingenieurs kunnen verminderen om agentframeworks aan te passen, omdat agenten deze meta-optimalisaties onafhankelijk kunnen leren.
Deze efficiëntie strekt zich uit tot kostenbeheersing. “GEA is expliciet een systeem in twee fasen: (1) de evolutie van agenten, en vervolgens (2) gevolgtrekking/toepassing”, aldus de onderzoekers. “Na de evolutie implementeer je één enkele geëvolueerde agent… zodat de kosten voor bedrijfsinferentie in wezen onveranderd blijven in vergelijking met een standaard opstelling met één agent.”
Het succes van GEA komt voor een groot deel voort uit haar vermogen om verbeteringen te consolideren. De onderzoekers volgden specifieke innovaties die door agenten tijdens het evolutionaire proces waren ontdekt. In de basisbenadering ontstaan waardevolle instrumenten vaak in geïsoleerde takken, maar verspreiden ze zich niet omdat die specifieke lijn is geëindigd. Bij GEA zorgt een gedeeld ervaringsmodel ervoor dat de tool wordt toegepast door de best presterende agenten. De beste GEA-agent integreert eigenschappen van 17 unieke voorouders (die 28% van de bevolking vertegenwoordigen), terwijl de beste basisagent slechts eigenschappen van 9 integreert. GEA creëert in feite ‘superwerknemers’ die de best practices van de hele groep combineren.
“Door GEA-geïnspireerde workflows in de productie kunnen agenten eerst meerdere onafhankelijke oplossingen proberen als er een fout optreedt”, leggen de onderzoekers uit over dit zelfherstellende vermogen. “Reflectieagenten (meestal ondersteund door een sterk onderliggend model) kunnen vervolgens de resultaten samenvatten… en uitgebreidere systeemupdates begeleiden.”
Bovendien zijn de door GEA gevonden verbeteringen niet gebonden aan een bepaald basismodel. Agenten evolueerden met behulp van één model, zoals Claude, en behielden hun prestatieverbeteringen, zelfs als de onderliggende engine werd gewisseld naar een andere modellenset, zoals GPT-5.1 of GPT-o3-mini. Deze schakelbaarheid biedt bedrijven de flexibiliteit om van modelaanbieder te wisselen zonder de specifieke architectonische optimalisaties te verliezen die hun agenten hebben geleerd.
Voor industrieën met strenge compliance-eisen kan het idee van zelfmodificerende code riskant klinken. Om dit aan te pakken zeggen de auteurs: “We verwachten dat bedrijfsimplementaties niet-uitbreidbare beperkingen zullen bevatten, zoals sandbox-uitvoering, beleidsbeperkingen en verificatielagen.”
Hoewel de onderzoekers van plan zijn de officiële code binnenkort vrij te geven, kunnen ontwikkelaars al beginnen met het conceptueel implementeren van de GEA-architectuur bovenop het bestaande agentframework. Het systeem vereist drie belangrijke toevoegingen aan de standaard agentenstack: een ‘ervaringsarchief’ om evolutiesporen op te slaan, een ‘reflectiemodule’ om groepspatronen te analyseren, en een ‘updatemodule’ waarmee de agent zijn eigen code kan aanpassen op basis van die inzichten.
In de toekomst zou dit raamwerk de ontwikkeling van geavanceerde agenten kunnen democratiseren. ‘Eén veelbelovende richting is een hybride evolutionair pad,’ zeggen de onderzoekers, ‘waarbij kleinere modellen al vroeg onderzoek doen om uiteenlopende ervaringen op te doen, en krachtigere modellen later de evolutie sturen met behulp van die ervaringen.’


