Home Nieuws Het nieuwe raamwerk vereenvoudigt het complexe landschap van agent AI

Het nieuwe raamwerk vereenvoudigt het complexe landschap van agent AI

5
0
Het nieuwe raamwerk vereenvoudigt het complexe landschap van agent AI

Naarmate het ecosysteem van agenttools en -frameworks groter wordt, wordt het navigeren door de veelheid aan opties voor het bouwen van AI-systemen steeds moeilijker, waardoor ontwikkelaars verward en verlamd raken bij het kiezen van de juiste tools en modellen voor hun toepassingen.

In een nieuwe studieonderzoekers van verschillende instellingen presenteren een alomvattend raamwerk om dit complexe netwerk te ontwarren. Ze categoriseren agentframeworks op basis van aandachtsgebieden en afwegingen en bieden ontwikkelaars praktische begeleiding bij het kiezen van de juiste tools en strategieën voor hun toepassingen.

Voor bedrijfsteams verandert dit de AI van agenten van een modelselectieprobleem in een architecturale beslissing over waar ze het trainingsbudget aan moeten besteden, hoeveel modulariteit ze moeten behouden en welke afwegingen ze bereid zijn te maken tussen kosten, flexibiliteit en risico.

Aanpassingstool voor agent versus agent

Onderzoekers verdelen landschappen in twee hoofddimensies: aanpassing van agenten En gereedschap aanpassing.

Agentaanpassing omvat het wijzigen van het basismodel dat ten grondslag ligt aan het agentsysteem. Dit wordt gedaan door de interne parameters of het beleid van de agent bij te werken via methoden zoals adaptief of versterkend leren, om deze beter af te stemmen op specifieke taken.

Aanpassing van gereedschappen verschuift daarentegen de focus naar de omgeving rondom de agent. In plaats van grote en dure basismodellen opnieuw te trainen, optimaliseren ontwikkelaars externe tools zoals lookup-fetchers, geheugenmodules of sub-agents. In deze strategie blijft de hoofdagent ‘bevroren’ (onveranderd). Dankzij deze aanpak kan het systeem evolueren zonder de grote rekenkosten van het opnieuw trainen van het kernmodel.

Agent-aanpassingsstrategie (bron: arXiv)

De studie verdeelt ze verder in vier verschillende strategieën:

A1: Gereedschapsuitvoeringssignalen: Bij deze strategie leren agenten door te doen. Het is geoptimaliseerd met behulp van verifieerbare feedback die rechtstreeks afkomstig is van de uitvoering van tools, zoals codecompilers die interactie hebben met scripts of databases die zoekresultaten retourneren. Dit leert agenten de ‘mechanismen’ van het juiste gereedschapsgebruik.

Een goed voorbeeld is DeepSeek-R1waarbij het model wordt getraind via versterkend leren met verifieerbare beloningen om code te produceren die met succes in de sandbox wordt uitgevoerd. Feedbacksignalen zijn binair en objectief (is de code uitgevoerd of gecrasht?). Deze methode bouwt sterke competenties op een lager niveau op in stabiele, verifieerbare domeinen zoals codering of SQL.

A2: Agentuitvoer Gemarkeerd: Hier wordt de agent geoptimaliseerd op basis van de kwaliteit van zijn uiteindelijke antwoord, ongeacht de tussenstappen en het aantal tooloproepen dat hij maakt. Dit leert agenten hoe ze verschillende hulpmiddelen kunnen organiseren om tot de juiste conclusie te komen.

Een voorbeeld is R1-Zoekenagenten die meerstaps ophalen uitvoeren om vragen te beantwoorden. Het model ontvangt alleen beloningen als het uiteindelijke antwoord juist is, waardoor het model impliciet wordt gedwongen betere zoek- en redeneerstrategieën te leren om die beloningen te maximaliseren. A2 is ideaal voor orkestratie op systeemniveau, waardoor agenten complexe workflows kunnen afhandelen.

Vraag 1: Agent-agnostisch: In deze categorie worden tools onafhankelijk getraind op basis van uitgebreide gegevens en vervolgens ‘bedraad’ met bevroren agenten. Denk aan de klassieke Solid Retriever die in een RAG-systeem wordt gebruikt. Standaard retrievermodellen worden getraind op algemene zoekgegevens. Een sterk bevroren LLM kan deze retriever gebruiken om naar informatie te zoeken, zelfs als de retriever niet specifiek voor die LLM is ontworpen.

Vraag 2: Geleid door een agent: Deze strategie omvat speciale trainingsinstrumenten om bevroren agenten te bedienen. Monitoringsignalen komen voort uit de eigen output van de agent, waardoor een symbiotische relatie ontstaat waarin de tool leert precies te bieden wat de agent nodig heeft.

Bijvoorbeeld, s3logic train een klein “zoek”-model om documenten op te halen. Deze kleine modellen worden beloond op basis van de vraag of bevroren ‘redeneringen’ (grote LLM) vragen correct kunnen beantwoorden met behulp van het document. De tool past zich effectief aan om specifieke kennishiaten van lead agents op te vullen.

Complexe AI-systemen kunnen een combinatie van deze aanpassingsparadigma’s gebruiken. Een diepgaand onderzoekssysteem zou bijvoorbeeld een T1-stijl retrieval agent (een getrainde, dichte retriever), een T2-stijl adaptieve zoekagent (getraind via bevroren LLM-feedback) en een A1-stijl redeneeragent (afgestemd met uitvoeringsfeedback) kunnen gebruiken in een breder gereguleerd systeem.

Verborgen kosten en offers

Voor besluitvormers in bedrijven wordt de keuze voor deze strategie vaak veroorzaakt door drie factoren: kosten, generalisatie en modulariteit.

Kosten- versus kostenflexibiliteit: Agentaanpassing (A1/A2) biedt maximale flexibiliteit omdat u het brein van de agent bijwerkt. De kosten zijn echter duur. Search-R1 (A2-systeem) vereist bijvoorbeeld training op 170.000 voorbeelden om zoekmogelijkheden te internaliseren. Dit vereist enorme rekenkracht en gespecialiseerde datasets. Aan de andere kant kunnen dergelijke modellen veel efficiënter zijn op het moment van inferentie, omdat hun omvang veel kleiner is dan die van generalistische modellen.

Gereedschapsaanpassing (T1/T2) is daarentegen veel efficiënter. Het s3 (T2)-systeem traint een lichtgewicht zoeker met behulp van slechts 2.400 voorbeelden (ongeveer 70 keer minder gegevens dan Search-R1) terwijl vergelijkbare prestaties worden behaald. Door ecosystemen te optimaliseren in plaats van agenten, kunnen bedrijven hoge prestaties behalen tegen lagere kosten. Dit gaat echter gepaard met overhead inferentietijd, aangezien s3 coördinatie met grotere modellen vereist.

Generalisatie: De methoden A1 en A2 lopen het risico van “overfitting”, dat wil zeggen dat de agent zo gespecialiseerd raakt in één taak dat hij de algemeenheid verliest. Uit het onderzoek bleek dat Search-R1 weliswaar uitblonk in zijn trainingstaken, maar dat het worstelde met specifieke medische QA en een nauwkeurigheid van slechts 71,8% bereikte. Dit is geen probleem als uw agent is ontworpen om een ​​zeer specifieke reeks taken uit te voeren.

Het s3 (T2)-systeem, dat gebruik maakt van bevroren materiaal voor algemeen gebruik, ondersteund door een getraind hulpmiddel, generaliseert daarentegen beter en bereikt een nauwkeurigheid van 76,6% voor dezelfde medische taak. De bevroren agent behoudt zijn uitgebreide wereldkennis, terwijl de tool specifieke ophaalmechanismen hanteert. T1/T2-systemen zijn echter afhankelijk van kennis van bevroren agenten, en als het onderliggende model een bepaalde taak niet aankan, is het systeem nutteloos.

Modulariteit: De T1/T2-strategie maakt ‘hot-swapping’ mogelijk. U kunt het geheugen upgraden of modules zoeken zonder de kernredeneringsmachine aan te raken. Bijvoorbeeld, Herinneringen geheugenmodules optimaliseren om gevallen uit het verleden op te halen; als de eisen veranderen, update jij de module en niet de planner.

Systemen A1 en A2 zijn monolithisch. Het aanleren van nieuwe vaardigheden (zoals coderen) door middel van maatwerk kan leiden tot ‘catastrofaal vergeten’, d.w.z. het verlagen van eerder aangeleerde vaardigheden (zoals wiskunde) omdat hun interne gewichten worden overschreven.

afwegingen tussen agenten

Kosten en afwegingen van verschillende aanpassingsstrategieën voor agenten (bron: arXiv)

Een strategisch raamwerk voor adoptie door ondernemingen

Op basis van het onderzoek moeten ontwikkelaars deze strategie zien als een progressieve ladder, die zich verplaatst van modulaire oplossingen met een laag risico naar maatwerk met veel middelen.

Begin met T1 (agent-agnostische tool): Vul bevroren en winterharde modellen (zoals Gemini of Claude) aan met kant-en-klare apparatuur zoals Solid Retriever of MCP-connector. Het vereist geen training en is zeer geschikt voor prototyping en algemene toepassingen. Het is een no-brainer waarmee u voor de meeste taken een heel eind kunt komen.

Overstappen naar T2 (tool onder toezicht van agent): Als agenten moeite hebben met het gebruik van algemene tools, train het hoofdmodel dan niet opnieuw. Train in plaats daarvan een kleine, gespecialiseerde subagent (zoals een zoeker of geheugenbeheerder) om de gegevens te filteren en op te maken zoals de hoofdagent dat wenst. Het is zeer gegevensefficiënt en geschikt voor grote, kostengevoelige bedrijfsgegevens en -applicaties.

Gebruik A1 (gemarkeerde gereedschapsuitvoering) voor specialisatie: Als de agent fundamenteel faalt in technische taken (bijvoorbeeld het schrijven van niet-functionele code of onjuiste API-aanroepen), moet u zijn begrip van de ‘mechanica’ van de tool verbeteren. A1 is het beste voor het maken van specialisten in verifieerbare domeinen zoals SQL of Python of uw eigen tools. U kunt bijvoorbeeld een klein model optimaliseren voor uw specifieke apparaat en dit vervolgens gebruiken als T1-plug-in voor een generalistisch model.

Reserve A2 (agentuitgang wordt gesignaleerd) als een “nucleaire optie”: Train een monolithische agent alleen end-to-end als je hem nodig hebt om complexe strategieën te internaliseren en zichzelf te corrigeren. Dit is resource-intensief en is zelden nodig voor standaard bedrijfsapplicaties. In feite hoeft u zelden betrokken te raken bij het trainen van uw eigen modellen.

Naarmate het AI-landschap volwassener wordt, verschuift de focus van het bouwen van één gigantisch, perfect model naar het bouwen van een intelligent ecosysteem van gespecialiseerde tools rond een stabiele kern. Voor de meeste bedrijven is de meest effectieve weg naar agent-AI niet het bouwen van grotere hersenen, maar het geven van betere hulpmiddelen aan de hersenen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in