Home Nieuws Betaalt u de AI ‘hordebelasting’? Waarom individuele agenten vaak complexe systemen verslaan

Betaalt u de AI ‘hordebelasting’? Waarom individuele agenten vaak complexe systemen verslaan

2
0
Betaalt u de AI ‘hordebelasting’? Waarom individuele agenten vaak complexe systemen verslaan

Enterprise-teams die multi-agent AI-systemen bouwen, betalen mogelijk een computerpremie voor voordelen die niet onder dezelfde budgetvoorwaarden kunnen worden behaald. Uit nieuw onderzoek aan de Stanford University blijkt dat systemen met één agent overeenkomen met of beter presteren dan multi-agent-architecturen bij complexe redeneringstaken wanneer beide hetzelfde denktokenbudget krijgen.

Multi-agentsystemen brengen echter extra lasten met zich mee in de vorm van computationele overhead. Omdat ze doorgaans langere redeneersporen en veel interacties gebruiken, is het vaak onduidelijk of de gerapporteerde voordelen voortkomen uit architectonische voordelen of eenvoudigweg uit het verbruiken van meer hulpbronnen.

Om de echte drijfveren van prestaties te isoleren, hebben onderzoekers van Stanford University ontdekt het vergelijken van single-agentsystemen met multi-agent-architecturen op complexe multi-hop redeneringstaken met gelijkwaardige ‘gedachte-token’-budgetten.

Uit hun experimenten blijkt dat systemen met één agent in veel gevallen overeenkomen met of beter presteren dan systemen met meerdere agenten als ze qua rekenkracht gelijkwaardig zijn. Systemen met meerdere agenten verkrijgen concurrentievoordeel wanneer contexten met één agent te lang worden of kapot gaan.

In de praktijk betekent dit dat single-agent-modellen met voldoende redeneringsbudgetten efficiëntere, betrouwbaardere en kosteneffectievere multi-hop-redeneringen kunnen produceren. Technische teams moeten systemen met meerdere agenten reserveren voor scenario’s waarin afzonderlijke agenten prestatielimieten bereiken.

Begrijp de kloof tussen één agent en meerdere agenten

Multi-agent raamwerken, zoals planning agenten, rollenspelsystemen of debatpools, lossen problemen op door meerdere modellen in gedeeltelijke contexten te laten werken. Deze componenten communiceren met elkaar door hun antwoorden uit te zenden.

Hoewel oplossingen met meerdere agenten sterke empirische prestaties laten zien, is het vergelijken ervan met basisgegevens van één agent vaak een onnauwkeurige meting. Vergelijkingen worden sterk vertroebeld door verschillen in de berekeningen van de testtijd. Opstellingen met meerdere agenten vereisen de interactie van meerdere agenten en resulteren in langere redeneersporen, wat betekent dat ze aanzienlijk meer tokens gebruiken.

Single-agentsysteem (SAS) versus multi-agentsysteem (MAS)

Als gevolg hiervan is het, wanneer multi-agentsystemen een hogere nauwkeurigheid rapporteren, moeilijk te bepalen of het voordeel voortkomt uit een beter architectonisch ontwerp of uit extra computeruitgaven.

Recente onderzoeken laat zien dat wanneer computationele budgetten vastliggen, complexe multi-agentstrategieën vaak slecht presteren in vergelijking met robuuste single-agent basislijnen. De meeste hiervan zijn echter zeer brede vergelijkingen waarbij geen rekening wordt gehouden met verschillen zoals verschillende multi-agent architecturen of het verschil tussen snelle tokens en verstandige tokens.

“Het belangrijkste punt van ons artikel is dat veel vergelijkingen tussen single-agentsystemen (SAS) en multi-agentsystemen (MAS) geen appels met appels zijn”, vertelden de auteurs van het artikel Dat Tran en Douwe Kiela aan VentureBeat. “MAS bereikt vaak een effectievere testtiming door extra oproepen, langere traces of meer coördinatiestappen.”

Uitdagingen voor meerdere instanties opnieuw bekijken met een krap budget

Om een ​​eerlijke vergelijking te maken, hebben de Stanford-onderzoekers een strikt ‘gedachte-token’-budget vastgesteld. Deze statistiek bepaalt het totale aantal tokens dat uitsluitend wordt gebruikt voor tussentijds redeneren, met uitzondering van initiële opdrachten en uiteindelijke uitvoer.

Deze studie evalueert single- en multi-agentsystemen op multi-hop redeneertaken, dat wil zeggen vragen waarbij verschillende stukjes informatie met elkaar moeten worden verbonden om tot een antwoord te komen.

Tijdens hun experimenten merkten de onderzoekers dat single-agentopstellingen soms hun interne redenering voortijdig stopten, waardoor het beschikbare computerbudget ongebruikt bleef. Om dit te ondervangen, introduceerden ze een techniek genaamd SAS-L (single-agentsystemen met langer denken).

In plaats van zich te wenden tot orkestratie door meerdere agenten wanneer het model het voortijdig opgeeft, stellen de onderzoekers eenvoudige, snelle veranderingen en budgettering voor.

“Het idee van de techniek is simpel”, zeggen Tran en Kiela. “Herstructureer eerst de query’s van één agent, zodat het model expliciet wordt aangemoedigd om het redeneringsbudget te gebruiken dat beschikbaar is voor analyse vooraf.”

Door het model te instrueren om expliciet dubbelzinnigheden te identificeren, kandidaat-interpretaties op te sommen en alternatieven te testen voordat ze een definitief antwoord geven, kunnen ontwikkelaars de voordelen van samenwerking in een single-agentomgeving terugwinnen.

Hun experimentele resultaten bevestigen dat single agent de sterkste standaardarchitectuur is voor multi-hop redeneertaken. Dit levert antwoorden op met de hoogste nauwkeurigheid terwijl er minder redeneerfiches worden gebruikt. In combinatie met bepaalde modellen, zoals de Google Gemini 2.5, levert de langere variant betere totale prestaties.

De onderzoekers vertrouwden op een concept genaamd ‘Data Processing Inequality’ om uit te leggen waarom individuele agenten beter presteren dan andere agenten. Multi-agentframeworks brengen inherente communicatiebarrières met zich mee. Telkens wanneer informatie wordt samengevat en tussen verschillende agenten wordt doorgegeven, bestaat het risico op gegevensverlies.

Daarentegen vermijdt het redeneren met één agent in één continue context deze fragmentatie. Hierdoor blijft toegang behouden tot de rijkste taakrepresentatie die beschikbaar is en is dus efficiënter in het verkrijgen van informatie binnen een vast budget.

De auteurs merken ook op dat bedrijven vaak de secundaire kosten van multi-agentsystemen over het hoofd zien.

“Wat bedrijven vaak onderschatten is dat orkestratie niet gratis is”, zeggen ze. “Elke extra agent creëert communicatie-overhead, meer tussenliggende tekst, meer mogelijkheden voor schadelijke samenvattingen en meer plaatsen waar fouten kunnen escaleren.”

Aan de andere kant ontdekten ze dat orkestratie door meerdere agenten superieur was als de omgeving met één agent rommelig was. Als een bedrijfsapplicatie te maken krijgt met zeer gedegradeerde context, zoals luidruchtige gegevens, lange invoer vol afleidingen of beschadigde informatie, zal een enkele agent het moeilijk hebben. In dit scenario kunnen gestructureerde filtering, ontleding en systeemverificatie met meerdere agenten relevante informatie betrouwbaarder herstellen.

Het onderzoek waarschuwt ook voor verborgen evaluatievalkuilen die de prestaties van meerdere agenten ten onrechte verbeteren. Als u vertrouwt op het aantal tokens dat door de API wordt gerapporteerd, zal dit de hoeveelheid rekenwerk die daadwerkelijk door een architectuur wordt besteed, sterk verstoren. Onderzoekers ontdekten deze boekhoudkundige artefacten bij het testen van modellen als Gemini 2.5, wat bewijst dat dit tegenwoordig een actief probleem is voor bedrijfsapplicaties.

“Voor API-modellen is de situatie ingewikkelder omdat de budgetboekhouding onduidelijk kan zijn”, zeggen de auteurs. Om architecturen betrouwbaar te kunnen evalueren, adviseren ze ontwikkelaars om “alles te loggen, zichtbare redeneringssporen te meten waar beschikbaar, het aantal redeneringstokens te gebruiken dat de provider rapporteert wanneer ze worden blootgesteld, en die cijfers met de nodige voorzichtigheid te behandelen.”

Wat het betekent voor ontwikkelaars

Als een systeem met één agent de prestaties zou evenaren van meerdere agenten met hetzelfde budget, zou het beter presteren wat betreft de totale eigendomskosten door minder modeloproepen, een lagere latentie en eenvoudiger debuggen aan te bieden. Tran en Kiela waarschuwen dat zonder deze basis “sommige bedrijven grote ‘bulkbelastingen’ zouden kunnen betalen voor architecturen waarvan de echte voordelen voortkomen uit grotere computeruitgaven in plaats van uit effectievere overwegingen.”

Een andere manier om naar beslissingsbeperkingen te kijken is niet hoe complex de totale taak is, maar eerder waar de beperkingen liggen.

“Als het om een ​​diepgaande redenering gaat, is SAS vaak voldoende. Als het om contextfragmentatie of degradatie gaat, wordt MAS beter onderhoudbaar”, aldus Tran.

Technische teams moeten zich houden aan één enkele agent als een taak binnen één samenhangend contextvenster kan worden afgehandeld. Multi-agentsystemen worden noodzakelijk wanneer applicaties met zeer gedegradeerde contexten omgaan.

In de toekomst zullen multi-agent-frameworks niet verdwijnen, maar hun rol zal toenemen naarmate hun interne redeneervermogen verbetert.

“De belangrijkste les uit ons artikel is dat structuren met meerdere agenten moeten worden behandeld als gerichte technische keuzes om specifieke obstakels te overwinnen, en niet als een standaardaanname dat meer agenten automatisch betere intelligentie betekenen,” zei Tran.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in