Onderzoekers van Nvidia en de Universiteit van Hong Kong hebben Orchestrator uitgebracht, een model met 8 miljard parameters dat meerdere tools en grote taalmodellen (LLM’s) coördineert om complexe problemen op te lossen. In zijn experimenten bereikte Orchestrator een hogere nauwkeurigheid tegen lagere kosten dan veel grotere modellen in benchmarks voor toolgebruik, terwijl het in lijn was met gebruikersvoorkeuren met betrekking tot welke tools te gebruiken voor specifieke zoekopdrachten.
Het model wordt getraind via OrchestratorToolseen nieuw raamwerk voor versterkend leren (RL) voor het trainen van kleine modellen om als intelligente coördinatoren te fungeren. Deze aanpak is gebaseerd op het idee dat kleine ‘orkestrators’ die diverse teams van gespecialiseerde modellen en tools beheren effectiever en efficiënter kunnen zijn dan een enkel, monolithisch AI-systeem.
Deze bevindingen suggereren dat deze gecombineerde aanpak de weg zou kunnen vrijmaken voor meer praktische en schaalbare AI-redeneersystemen in ondernemingen.
Huidige beperkingen van het gebruik van LLM-tools
Verleent LLM toegang tot externe hulpmiddelen is een veelbelovende manier om hun mogelijkheden uit te breiden buiten trainingsgegevens en naar agenttaken. Door gebruik te maken van bronnen zoals zoekmachines en codevertalers kunnen AI-agents hun nauwkeurigheid verbeteren en taken binnen applicaties uitvoeren.
Echter, binnen begeleidend papierDe onderzoekers beweren dat de huidige benaderingen voor het bouwen van tool-gebruikende agenten niet het volledige potentieel van dit paradigma benutten. De meeste systemen rusten één krachtig model uit met een basisset hulpmiddelen zoals zoeken op internet of een rekenmachine.
Ze beweren dat mensen, wanneer ze nadenken, ‘zichzelf routinematig uitbreiden door gebruik te maken van hulpbronnen die over een grotere intelligentie beschikken dan mensen, variërend van domeinexperts tot geavanceerde softwareprocessen en -systemen.’ Daarom moeten LLM’s in verschillende hoedanigheden met verschillende tools kunnen communiceren.
Paradigma voor toolorkestratie
Dit artikel stelt een verschuiving voor van systemen met één model naar samengestelde systemen, beheerd door lichtgewicht ‘orkestrator’-modellen. Het is de taak van een orkestrator om complexe taken te analyseren en op te splitsen, met behulp van de juiste tools in de juiste volgorde om tot een oplossing te komen.
Deze tools omvatten niet alleen standaardhulpprogramma’s zoals surfen op het web en codevertalers, maar ook andere LLM’s met verschillende mogelijkheden die functioneren als ‘slimme tools’. Een orkestrator kan bijvoorbeeld kwantitatieve vragen delegeren aan een op wiskunde gericht model, of programmeeruitdagingen aan een codeermodel. In plaats van de hele cognitieve belasting op één groot algemeen model te leggen, delegeren orkestrators beperkte deelproblemen aan gespecialiseerde intelligente tools.
Op basis van dit concept ontwikkelden onderzoekers ToolOrchestra, een methode die RL gebruiken om kleine taalmodellen te trainen om als orkestrators op te treden. Het model leert wanneer en hoe andere modellen en hulpmiddelen moeten worden gebruikt, en hoe de resultaten ervan kunnen worden gecombineerd in redeneren met meerdere lussen. De tools zijn gedefinieerd in een eenvoudig JSON-formaat, met vermelding van hun naam, beschrijving en parameters.
Het RL-trainingsproces wordt geleid door een beloningssysteem dat kosteneffectieve en controleerbare middelen produceert. De beloning balanceert drie doelen: nauwkeurigheid van het uiteindelijke antwoord, efficiëntie van kosten en latentie, en afstemming op gebruikersvoorkeuren. Het systeem zou bijvoorbeeld worden bestraft voor overmatig computergebruik en worden beloond voor het selecteren van tools naar keuze van de gebruiker, bijvoorbeeld om privacyredenen de voorkeur te geven aan een open source-model boven een propriëtaire API. Ter ondersteuning van deze training heeft het team ook een geautomatiseerde datapijplijn ontwikkeld die duizenden verifieerbare trainingsvoorbeelden genereert in 10 verschillende domeinen.
Klein model met grote resultaten
Met ToolOrchestra trainden de onderzoekers Orchestrator, een model waarop 8 miljard parameters zijn gebaseerd Qwen3-8B. Ze beoordelen de prestaties aan de hand van drie uitdagende benchmarks: De laatste test van de mensheid (hel),, KADER En Tau2-Benku. Dit werd vergeleken met verschillende baselines, waaronder grote LLM’s die zowel met als zonder tools beschikbaar waren.
De resultaten laten zien dat zelfs robuuste modellen het moeilijk hebben zonder hulpmiddelen, wat de noodzaak van dergelijke modellen voor complex redeneren benadrukt. Hoewel het toevoegen van tools de prestaties van grote modellen kan verbeteren, leidt dit vaak tot een scherpe stijging van de kosten en de latentie.
8B Orchestrator levert daarentegen indrukwekkende resultaten. Op HLE, een vragenbenchmark op PhD-niveau, presteert Orchestrator aanzienlijk beter dan eerdere methoden met lagere rekenkosten. Bij de Tau2-Bench-functieaanroeptest plant de tool effectief een breed scala aan tools, waarbij grote modellen zoals GPT-5 in slechts ongeveer 40% van de stappen worden aangeroepen en voor de rest goedkopere opties worden gebruikt, terwijl het nog steeds agenten verslaat die grote modellen gebruiken voor elke stap.
De onderzoekers merkten op dat de RL-opgeleide Orchestrator zijn strategie aanpaste aan nieuwe uitdagingen, en blijk gaf van “een hoog niveau van algemeen redeneervermogen.” Belangrijk voor bedrijfsapplicaties is dat Orchestrator ook goed generaliseert naar modellen en prijsstructuren die het tijdens de training niet heeft gezien. Deze flexibiliteit maakt het raamwerk geschikt voor bedrijven die afhankelijk zijn van een mix van publieke, private en op maat gemaakte AI-modellen en -tools. De lagere kosten, grotere snelheid en aanpasbaarheid maken het een praktische benadering voor het bouwen van geavanceerde AI-agents die kunnen schalen.
Nu bedrijven meer geavanceerde AI-agents willen inzetten, biedt deze orkestratiebenadering een pad naar systemen die niet alleen slimmer zijn, maar ook zuiniger en controleerbaarder. (Dat huidige modelgewichten beschikbaar onder een niet-commerciële licentie, maar Nvidia heeft het ook vrijgegeven trainingscode onder de tolerante Apache 2.0-licentie.)
Zoals het artikel concludeert, ligt de toekomst wellicht in een meer geavanceerde versie van dit concept: “In de toekomst stellen we ons meer geavanceerde recursieve orkestratorsystemen voor om de bovengrenzen van intelligentie te verleggen (en) ook om de efficiëntie verder te vergroten bij het oplossen van steeds complexere agenttaken.”



