Onderzoekers van Google en MIT hebben een uitgebreide analyse agentsystemen en de dynamiek tussen het aantal agenten, de coördinatiestructuur, modelmogelijkheden en taakeigenschappen. Hoewel het heersende sentiment in de branche luidt: ‘meer agenten is alles wat je nodig hebt’, blijkt uit onderzoek dat het opschalen van agentteams geen gegarandeerde weg is naar betere prestaties.
Op basis van hun bevindingen hebben onderzoekers een kwantitatief model gedefinieerd dat de prestaties van een bedrijf kan voorspellen agentisch systeem op een onzichtbare taak. Uit hun onderzoek is gebleken dat het toevoegen van meer agenten en hulpmiddelen als een tweesnijdend zwaard werkt: hoewel het de prestaties bij bepaalde problemen kan verbeteren, creëert het vaak onnodige overhead en vermindert het de voordelen voor andere.
Deze bevindingen bieden een belangrijke routekaart voor ontwikkelaars en besluitvormers in ondernemingen die proberen te bepalen wanneer complexe multi-agent architecturen moeten worden geïmplementeerd in plaats van eenvoudigere, meer kosteneffectieve single-agent oplossingen.
De status van het agentsysteem
Om de implicaties van dit onderzoek te begrijpen, is het belangrijk om onderscheid te maken tussen de twee belangrijkste architecturen die tegenwoordig worden gebruikt. Single-agentsystemen (SAS) hebben hun eigen redeneerprincipe. In deze setting vinden alle perceptie, planning en actie plaats in één opeenvolgende lus die wordt bestuurd door een enkele LLM-instantie, zelfs als het systeem gebruikmaakt van hulpmiddelen, zelfreflectie of chain-of-mind (CoT)-redenering. Een multi-agentsysteem (MAS) bestaat daarentegen uit meerdere LLM-compatibele agenten die communiceren via het gestructureerd doorgeven van berichten, gedeeld geheugen of georkestreerde protocollen.
Het bedrijfsleven heeft een grote belangstelling voor MASgedreven door het uitgangspunt dat toegewijde samenwerking consistent beter kan presteren dan systemen met één agent. Omdat taken steeds complexer worden en voortdurende interactie met de omgeving vereisen (bijvoorbeeld codeerassistenten of bots voor financiële analyse), gaan ontwikkelaars er vaak van uit dat het verdelen van het werk onder ‘gespecialiseerde’ agenten een betere aanpak is.
De onderzoekers stellen echter dat er, ondanks de snelle adoptie, nog steeds geen kwantitatief raamwerk is dat kan voorspellen wanneer het toevoegen van middelen de prestaties zal versterken en wanneer het deze zal uithollen.
De belangrijkste bijdrage van dit artikel is het onderscheid tussen ‘statische’ en ‘agentische’ taken. De onderzoekers pasten een ‘Agentic Benchmarking Checklist’ toe om onderscheid te maken tussen taken die continue meerstapsinteractie, iteratieve informatieverzameling en adaptieve strategieverfijning vereisen, van taken waarvoor dat niet het geval is. Dit onderscheid is van cruciaal belang omdat strategieën die werken voor het oplossen van statische problemen (zoals het stemmen op een codeerquiz) vaak mislukken wanneer ze worden toegepast op echte agenttaken waarbij ‘coördinatieoverhead’ en ‘foutvoortplanting’ zich door het probleemoplossingsproces kunnen verspreiden.
De grenzen van samenwerking testen
Om de specifieke effecten van de systeemarchitectuur te isoleren, ontwierpen de onderzoekers een rigoureus experimenteel raamwerk. Ze testten 180 unieke configuraties met vijf verschillende architecturen, drie LLM-families (OpenAI, Google en Anthropic) en vier agentbenchmarks. De architectuur omvat een controlegroep met één agent en vier varianten met meerdere agenten: onafhankelijk (parallelle agenten zonder communicatie), gecentraliseerd (agenten rapporteren aan de orkestrator), gedecentraliseerd (peer-to-peer debat) en hybride (een combinatie van hiërarchie en peer-communicatie).
Het onderzoek was bedoeld om ‘implementatieverwarring’ te elimineren door tools, een snelle structuur en een symbolisch budget te standaardiseren. Dit zorgt ervoor dat als een systeem met meerdere agenten beter presteert dan een enkele agent, het voordeel kan worden toegeschreven aan de coördinatiestructuur en niet aan de toegang tot betere tools of meer computergebruik.
Deze resultaten dagen het ‘meer is beter’-verhaal uit. Uit de evaluatie bleek dat de effectiviteit van multi-agentsystemen wordt bepaald door “meetbare afwegingen tussen architectonische eigenschappen en taakkenmerken.” De onderzoekers identificeerden drie dominante patronen die deze resultaten aansturen:
Gereedschapsuitwisseling en coördinatie: Met een vast computerbudget hebben multi-agentsystemen last van contextfragmentatie. Wanneer het computerbudget over meerdere agenten wordt verdeeld, heeft elke agent onvoldoende capaciteit voor toolorkestratie vergeleken met een enkele agent die een uniforme geheugenstroom onderhoudt.
Als gevolg hiervan neemt de efficiëntie van multi-agentsystemen in omgevingen met veel tools met meer dan 10 tools sterk af. Onderzoekers ontdekten dat taken waarvoor meerdere tools nodig waren, een efficiëntieverlies van 2 tot 6 keer ondervonden bij het gebruik van systemen met meerdere agenten, vergeleken met systemen met één agent. Eenvoudigere architecturen zijn paradoxaal genoeg effectiever omdat ze de coördinatieoverhead vermijden die wordt verergerd door de complexiteit van de omgeving.
Verzadiging van vermogen: De gegevens stellen een empirische drempel vast van ongeveer 45% nauwkeurigheid voor de prestaties van één agent. Wanneer de basislijn voor één agent dit niveau overschrijdt, zal het toevoegen van meer agenten doorgaans resulteren in afnemende of negatieve winsten.
Co-auteur Xin Liu, wetenschappelijk onderzoeker bij Google en een van de auteurs van het artikel, merkte echter belangrijke nuances op voor zakelijke gebruikers. “Bedrijven moeten in beide investeren (single-agent- en multi-agent-systemen)”, vertelde hij aan VentureBeat. “Betere basismodellen verbeteren de basislijn, maar voor taken met natuurlijke afbreekbaarheid en potentieel voor parallellisatie (zoals onze Financial Agent-benchmark met een verbetering van +80,9%) blijft coördinatie tussen meerdere agenten grote waarde bieden, ongeacht de modelmogelijkheden.”
Topologie-afhankelijke fouten: De structuur van het agententeam bepaalt of fouten worden gecorrigeerd of vermenigvuldigd. In een “onafhankelijk” systeem waarin agenten parallel werken zonder te communiceren, nemen de fouten 17,2 keer toe vergeleken met de basislijn van één agent. De gecentraliseerde architectuur bevat daarentegen deze versterking tot 4,4 keer.
“De belangrijkste onderscheidende factor is de aanwezigheid van speciale validatiebarrières die fouten voorkomen voordat ze zich verspreiden in de uiteindelijke resultaten”, zegt hoofdauteur Yubin Kim, een doctoraatsstudent aan het MIT. “Voor logische tegenstrijdigheden verlaagt ‘gecentraliseerd’ het basispercentage … (met) 36,4% … Voor contextweglatingsfouten verlaagt ‘gecentraliseerd’ … (met) 66,8%.”
Bruikbare inzichten voor bedrijfsimplementatie
Voor ontwikkelaars en bedrijfsleiders bieden deze bevindingen specifieke richtlijnen voor het bouwen van efficiëntere AI-systemen.
-
Regel “Volgorde”: Voordat u een team van agenten samenstelt, analyseert u uw taakafhankelijkheidsstructuur. De sterkste voorspeller van het falen van meerdere agenten zijn zeer opeenvolgende taken. Als Stap B volledig afhankelijk is van de perfecte uitvoering van Stap A, is een single-agentsysteem waarschijnlijk de betere keuze. In dit scenario zal de fout geleidelijk optreden en niet ongedaan worden gemaakt. Aan de andere kant, als de taken parallel of ontleedbaar zijn (bijvoorbeeld het gelijktijdig analyseren van drie verschillende financiële rapporten), bieden multi-agentsystemen enorme voordelen.
-
Repareer niet wat niet kapot is: Bedrijven moeten altijd eerst met één agent benchmarken. Als een systeem met één agent een succespercentage van meer dan 45% voor een bepaalde taak behaalt dat niet gemakkelijk kan worden beschreven, zal het toevoegen van meer agenten waarschijnlijk de prestaties verminderen en de kosten verhogen zonder waarde te bieden.
-
Bereken uw API: Wees voorzichtig bij het toepassen van multi-agentsystemen op taken waarvoor veel verschillende tools nodig zijn. Het verdelen van een tokenbudget over meerdere agenten fragmenteert hun geheugen en context. “Voor zware toolintegratie met meer dan ongeveer 10 tools heeft een single-agent-systeem waarschijnlijk de voorkeur”, zei Kim, en merkte op dat uit het onderzoek een “2 tot 6x efficiëntiestraf” werd waargenomen voor de multi-agent-variant in dit scenario.
-
Pas de topologie aan het doel aan: Als een multi-agentsysteem vereist is, moet de topologie geschikt zijn voor het specifieke doel. Voor taken die een hoge nauwkeurigheid en precisie vereisen, zoals financiën of coderen, is gecentraliseerde coördinatie superieur omdat de orkestrator de noodzakelijke verificatielaag biedt. Voor taken die verkenning vereisen, zoals dynamisch surfen op het web, blinkt gedecentraliseerde coördinatie uit doordat agenten verschillende paden tegelijkertijd kunnen verkennen.
-
“Regel 4”: Hoewel het verleidelijk kan zijn om een grote kudde op te bouwen, blijkt uit het onderzoek dat de effectieve teamgrootte momenteel beperkt is tot ongeveer drie of vier agenten. “De limiet van drie tot vier agenten die we hebben geïdentificeerd, komt voort uit meetbare beperkte middelen”, zei Kim. Bovendien stijgen de communicatiekosten superlineair (met name met een exponent van 1,724), wat betekent dat de coördinatiekosten snel de waarde van aanvullend redeneren overschrijden.
Vooruitkijkend: bandbreedtelimieten doorbreken
Hoewel de huidige architecturen maximaal presteren bij kleine teamgroottes, kan dit een beperking zijn van de huidige protocollen en geen fundamentele beperking van AI. De effectieve beperkingen van multi-agentsystemen komen voort uit het feit dat agenten momenteel op een dichte en hulpbronnenintensieve manier communiceren.
“Wij geloven dat dit een huidige beperking is, en geen permanente beperking”, zegt Kim, wijzend op verschillende belangrijke innovaties die het potentieel voor grootschalige samenwerking tussen agenten kunnen ontsluiten:
Schaarse communicatieprotocollen: “Uit onze gegevens blijkt dat de berichtdichtheid ongeveer 0,39 berichten per beurt bedraagt, waarna extra berichten redundantie zullen toevoegen in plaats van nieuwe informatie. Slimmere routering kan de overhead verminderen”, zei hij.
Hiërarchische ontleding: In plaats van ongeveer 100 agenten te clusteren, kan een geneste coördinatiestructuur de communicatiegrafiek verdelen.
Asynchrone coördinatie: “Onze experimenten maken gebruik van een synchroon protocol, en een asynchroon ontwerp zou de blokkeringsoverhead kunnen verminderen”, zei hij.
Mogelijkheidsbewuste routering: “Onze heterogeniteitsexperimenten laten zien dat het strategisch combineren van modelmogelijkheden de efficiëntie kan verbeteren”, aldus Kim
Dit is iets om naar uit te kijken in 2026. Tot die tijd zijn de gegevens voor enterprise-architecten duidelijk: kleinere, slimmere en meer gestructureerde teams zullen winnen.



