In een nieuw papier Door het gebruik van tools bij agenten voor grote taalmodellering (LLM) te bestuderen, hebben onderzoekers van Google en UC Santa Barbara een raamwerk ontwikkeld waarmee agenten tools kunnen gebruiken en budgetten efficiënter kunnen berekenen. De onderzoekers introduceerden twee nieuwe technieken: een eenvoudige ‘Budget Tracker’ en een uitgebreider raamwerk genaamd ‘Budget Aware Test Time Scaling’. Deze technieken maken agenten expliciet bewust van de resterende redenen en mogelijkheden voor het gebruik van hun tools.
Omdat AI-agenten afhankelijk zijn van toolaanroepen om in de echte wereld te presteren, richt het opschalen van testtijden zich minder op slimmere modellen en meer op het beheersen van kosten en latentie.
Voor bedrijfsleiders en ontwikkelaars bieden budgetvriendelijke schaaltechnieken een praktisch pad naar het inzetten van effectieve AI-agents zonder te maken te krijgen met onvoorspelbare kosten of een vermindering van het rendement op computeruitgaven.
Uitdagingen bij het gebruik van schaalhulpmiddelen
Traditioneel testen van tijdschaling richt zich op het langer laten ‘denken’ van het model. Voor agenttaken zoals surfen op het web bepaalt het aantal toolgebruik echter direct de diepte en breedte van de verkenning.
Dit zorgt voor aanzienlijke operationele kosten voor bedrijven. “Tool-oproepen zoals browsen op webpagina’s resulteren in meer tokenverbruik, vergroten de contextlengte en brengen extra tijdlatentie met zich mee”, vertelden Zifeng Wang en Tengxiao Liu, co-auteurs van het artikel, aan VentureBeat. “De tool noemt zichzelf extra API-kosten.”
De onderzoekers ontdekten dat het geven van meer testtijd aan agenten geen betere prestaties garandeerde. “Als de agent bij diepgaande onderzoekstaken het budget niet begrijpt, gaat het vaak gewoon omlaag”, leggen Wang en Liu uit. “Hij vond één aanwijzing die er enigszins mee te maken had, en besteedde vervolgens tien tot twintig werkbezoeken aan het opgraven ervan, om vervolgens te beseffen dat het hele pad een doodlopende weg was.”
Optimaliseer middelen met Budget Tracker
Om te evalueren hoe ze het gebruiksbudget van de tool konden optimaliseren, probeerden de onderzoekers eerst een lichtgewicht aanpak genaamd ‘Budget Tracker’. Deze module fungeert als een plug-in die agenten voortdurend signalen geeft over de beschikbaarheid van resources, waardoor een budgetvriendelijk gebruik van de tool mogelijk wordt gemaakt.
Het team veronderstelde dat “het geven van expliciete budgetsignalen het model in staat stelt de beperkingen van de middelen te internaliseren en de strategie aan te passen zonder dat aanvullende training nodig is.”
Budget Tracker werkt puur op een hoog tempo, waardoor het eenvoudig te implementeren is. (Dit artikel geeft volledige details over de instructies die voor Budget Tracker worden gebruikt, waardoor het eenvoudig te implementeren is.)
In de implementatie van Google biedt de tracker een korte beleidsgids met uitleg over het budgetregime en aanbevelingen met betrekking tot het gebruik van de tool. Bij elke stap van het responsproces maakt Budget Tracker de agent expliciet bewust van zijn resourceverbruik en het resterende budget, waardoor hij de volgende redeneerstappen kan afstemmen op bijgewerkte resourcestatussen.
Om dit te testen experimenteerden de onderzoekers met twee paradigma’s: sequentiële schaling, waarbij het model zijn output iteratief verfijnt, en parallelle schaling, waarbij verschillende onafhankelijke processen worden uitgevoerd en gecombineerd. Ze voerden experimenten uit met een zoekagent uitgerust met zoek- en zoekhulpmiddelen volgens een ReAct-achtige lus. ReAct (Reasoning + Acting) is een populaire methode waarbij het model afwisselt tussen intern denken en extern handelen. Om de werkelijke schaaltrends op het gebied van de kostenprestaties te volgen, ontwikkelden ze een uniforme kostenstatistiek die gezamenlijk rekening houdt met de kosten van intern tokenverbruik en externe tool-interacties.
Ze testten Budget Tracker op drie QA-datasets voor het ophalen van informatie waarvoor extern zoeken vereist is, waaronder BrowseComp en HLE-Search, met behulp van modellen zoals Tweeling 2.5 ProGemini 2.5 Flitser, en Claude Sonnet4. Experimenten tonen aan dat deze eenvoudige plug-in de prestaties verbetert over een breed scala aan budgetbeperkingen.
“Het toevoegen van Budget Tracker bereikte een vergelijkbare nauwkeurigheid met 40,4% minder zoekopdrachten, 19,9% minder zoekopdrachten en verminderde de totale kosten… met 31,3%”, vertelden de auteurs aan VentureBeat. Ten slotte blijft Budget Tracker groeien naarmate het budget toeneemt, terwijl reguliere ReAct na een bepaalde drempel niet verandert.
BATS: Een uitgebreid raamwerk voor budgetbewuste schaalvergroting
Om de optimalisatie van het toolgebruik verder te verbeteren, introduceerden de onderzoekers Budget Aware Test-time Scaling (BATS), een raamwerk dat is ontworpen om de prestaties van agenten te maximaliseren op basis van een bepaald budget. BATS houdt een continu signaal bij over de resterende middelen en gebruikt deze informatie om het gedrag van de agent dynamisch aan te passen terwijl hij zijn reactie formuleert.
BATS gebruikt verschillende modules om agentacties te organiseren. De planningsmodule past de incrementele inspanningen aan het huidige budget aan, terwijl de verificatiemodule beslist of er “diep moet worden gegraven” in een veelbelovende prospect of moet worden “gepivot” naar een alternatief pad op basis van de beschikbaarheid van middelen.
Op basis van de informatiezoekvragen en het budget voor het gebruik van tools, begint BATS met het gebruik van de planningsmodule om een gestructureerd actieplan te formuleren en te beslissen welke tools moeten worden gebruikt. Wanneer hulpmiddelen worden gebruikt, worden hun reacties toegevoegd aan de redeneervolgorde om context te bieden met nieuw bewijsmateriaal. Wanneer de agent een kandidaat-antwoord voorstelt, verifieert de verificatiemodule dit en beslist of hij doorgaat met de huidige reeks of een nieuwe poging start met het resterende budget.
Het iteratieve proces eindigt wanneer de gebudgetteerde middelen zijn uitgeput, waarna de LLM als rechter het beste antwoord selecteert uit alle geverifieerde antwoorden. Gedurende de implementatie werkt Budget Tracker bij elke iteratie voortdurend het resourcegebruik en het resterende budget bij.
De onderzoekers testten BATS op de BrowserComp-, BrowserComp-ZH- en HLE-Search-benchmarks met basislijnen, waaronder standaard ReAct en verschillende op training gebaseerde agenten. Uit hun experimenten blijkt dat BATS hogere prestaties behaalt met minder gereedschapsgebruik en lagere totale kosten dan concurrerende methoden. Met Gemini 2.5 Pro als ruggengraat behaalde BATS een nauwkeurigheid van 24,6% op BrowserComp vergeleken met 12,6% op standaard ReAct, en 27,0% op HLE-Search vergeleken met 20,5% op ReAct.
BATS vergroot niet alleen de effectiviteit binnen de budgettaire beperkingen, maar zorgt ook voor betere afwegingen tussen kosten en prestaties. Op de BrowserComp-dataset bereikt BATS bijvoorbeeld een hogere nauwkeurigheid tegen een kostprijs van ongeveer 23 cent vergeleken met een parallelle schalingsbasislijn die meer dan 50 cent nodig heeft om vergelijkbare resultaten te bereiken.
Volgens de auteurs maakt deze efficiëntie voorheen dure workflows haalbaar. “Dit opent een reeks data-intensieve bedrijfsapplicaties voor de lange termijn… zoals complex codebase-onderhoud, due diligence-onderzoeken, onderzoek naar het concurrentielandschap, compliance-audits en meerstapsdocumentanalyse”, zeggen ze.
Wanneer bedrijven agenten willen gebruiken die hun eigen middelen beheren, zal het vermogen om nauwkeurigheid en kosten in evenwicht te brengen een belangrijke ontwerpvereiste zijn.
“Wij geloven dat de relatie tussen redeneren en economie onlosmakelijk met elkaar verbonden is”, aldus Wang en Liu. “In de toekomst zullen (modellen) rekening moeten houden met waarde.”

