Home Nieuws Waarom de grote overwinning van Sakana AI van groot belang is voor...

Waarom de grote overwinning van Sakana AI van groot belang is voor de toekomst van zakelijke agenten

14
0
Waarom de grote overwinning van Sakana AI van groot belang is voor de toekomst van zakelijke agenten

Een indrukwekkende prestatie, de Japanse startup Sakana AI codeermiddel ALE-Agent heeft onlangs de eerste plaats behaald in de AtCoder Heuristics Contest (AHC058), een complexe coderingswedstrijd met complexe optimalisatieproblemen – en een uitdaging die moeilijker en misschien veelzeggender is dan benchmarks als HumanEval, die grotendeels het vermogen testen om geïsoleerde functies te schrijven, en die veel AI-modellen en agenten nu met gemak passeren (“benchmarkverzadiging”).

Sakana’s De prestaties met ALE-Agent duiden op een verschuiving naar agenten die in staat zijn om autonoom te optimaliseren om goed te navigeren en goed te presteren in complexe, dynamische systemen zoals bedrijfssoftwarestacks, workflows en operationele omgevingen.

In vier uur tijd gebruikte de agent gevolgtrekkingstijdschaling om honderden oplossingen te genereren, testen en itereren, waarmee een probleem werd opgelost dat doorgaans diepe intuïtie en tijdrovend vallen en opstaan ​​van menselijke experts vereist. Het presteerde beter dan meer dan 800 menselijke deelnemers, waaronder de beste competitieve programmeurs.

Hoe ALE Agent werkt

Uitdagingen in klassieke AHC058 combinatorische optimalisatie probleem. Deelnemers krijgen de taak een reeks machines te beheren met hiërarchische relaties, zoals een machine die appels produceert, en andere machines die de machine bouwen die appels produceert. Het doel is om de output in een vast aantal rondes te maximaliseren.

In de bedrijfswereld volgt deze workflow doorgaans een strikt patroon: domeinexperts werken samen met klanten om een ​​‘objectieve functie’ (ook wel Scorer genoemd) te definiëren, en vervolgens bouwen ingenieurs een softwaresysteem om deze te optimaliseren. Deze problemen zijn notoir moeilijk omdat ze niet in één stap kunnen worden opgelost. Dit vereist verkenning, strategie en het vermogen om te schakelen als een plan niet werkt.

Resultaten van de AHC-wedstrijd (bron: Sakana AI-blog)

Menselijke experts benaderen dit doorgaans met behulp van een tweefasenstrategie. Ten eerste gebruiken ze de ‘Greedy’-methode (een lichtgewicht probleemoplosser die bij elke stap de beste keuze maakt) om een ​​in principe haalbare oplossing te genereren. Toen stelden ze voor”gesimuleerde gloeien”, een techniek die een bestaand plan neemt en kleine, willekeurige aanpassingen maakt om te zien of de score ervan verbetert. Deze standaardaanpak is echter rigide. Als het oorspronkelijke plan van Greedy de verkeerde kant op gaat, kan gesimuleerd uitgloeien dit zelden oplossen, omdat er alleen wordt gezocht naar lokale verbeteringen op het verkeerde gebied van de oplossingsruimte.

De innovatie van ALE-Agent verandert deze statische initialisatietool in een dynamische reconstructie-engine. In plaats van te vertrouwen op directe waarde, ontlenen agenten onafhankelijk een concept dat ‘Virtuele macht’ wordt genoemd. Het kent waarde toe aan componenten die nog niet operationeel zijn en behandelt deze alsof ze al waarde hebben. Door het toekomstige potentieel van een actief te waarderen en niet alleen de huidige activa, profiteert de agent van het ‘samengestelde rente-effect’, een concept dat expliciet wordt geïdentificeerd in zijn activa. interne logboeken. In wezen kunnen bedrijven meerdere stappen vooruit kijken en nadenken over de toekomst, in plaats van alleen maar te kijken naar de directe input die zij van hun omgeving ontvangen.

Het allerbelangrijkste was dat de agent deze strategie vier uur lang moest volhouden zonder de focus te verliezen, een veel voorkomende faalwijze die bekend staat als ‘contextdrift’. In commentaar aan VentureBeat legde het Sakana AI-team uit dat de agent tekstuele ‘inzichten’ genereert door op elk experiment te reflecteren. Het verzamelt deze kennis om te voorkomen dat het terugkeert naar eerder mislukte strategieën en creëert een werkgeheugen waarmee het meerdere stappen vooruit kan kijken in plaats van simpelweg te reageren op onmiddellijke input.

Bovendien integreert de agent de Greedy-methode rechtstreeks in de annealing-simulatiefase om te voorkomen dat hij vastloopt in lokale optima, waarbij gebruik wordt gemaakt van snelle reconstructie om grote delen van de oplossing snel te verwijderen en opnieuw op te bouwen.

Van coderen tot bedrijfsoptimalisatie

Deze doorbraak past in bestaande bedrijfsworkflows waar beoordelingsfunctionaliteit al beschikbaar is. Momenteel vertrouwen bedrijven op schaars technisch talent om optimalisatie-algoritmen te schrijven. ALE-Agent toont een toekomst waarin mensen de “Scorer” (dat wil zeggen bedrijfslogica en doelen) definiëren en agenten de technische implementatie afhandelen.

Dit verschuift de operationele beperkingen van technische capaciteit naar metrische duidelijkheid. Als een bedrijf een doel kan meten, kunnen agenten het optimaliseren. Dit heeft directe toepassingen in de logistiek, zoals voertuigrouting, maar ook serverloadbalancing en toewijzing van middelen.

ALE-Agent-applicatie

ALE-Agent-applicatie (bron: Sakana AI)

Volgens het Sakana AI-team kan dit de optimalisatie democratiseren. “Dit maakt een toekomst mogelijk waarin niet-technische klanten rechtstreeks met agenten kunnen communiceren, waardoor zakelijke beperkingen in realtime kunnen worden gewijzigd totdat ze de gewenste resultaten krijgen”, zeiden ze.

Het Sakana AI-team vertelde VentureBeat dat ALE-Agent momenteel gepatenteerd is en niet beschikbaar is voor algemeen gebruik, en dat het bedrijf zich momenteel richt op interne ontwikkeling en proof-of-concept-samenwerkingen met bedrijven.

Tegelijkertijd kijkt het team nu al uit naar ‘zelfherschrijvende’ agenten. Deze toekomstige agenten kunnen hun eigen scorers definiëren, waardoor ze slecht gedefinieerde problemen kunnen overwinnen waarbij experts moeite hebben om duidelijke initiële meetgegevens te formuleren.

Kosten van inlichtingen

Het runnen van ALE-Agent is niet goedkoop. Deze vier uur durende operatie kostte ongeveer $ 1.300 aan computerkosten, waarbij meer dan 4.000 redeneringsoproepen naar het model nodig waren, zoals GPT-5.2 En Tweeling 3 Pro. Hoewel deze prijs voor een enkele codeertaak misschien duur lijkt, is het rendement op de investering bij optimalisatieproblemen vaak niet symmetrisch. In een resource management-omgeving kunnen eenmalige kosten van een paar duizend dollar resulteren in een jaarlijkse efficiëntiebesparing van miljoenen dollars.

Bedrijven die verwachten dat de kosten zullen dalen, missen echter mogelijk het strategische plaatje. Hoewel de tokenkosten dalen, kunnen de totale uitgaven zelfs stijgen naarmate bedrijven strijden om betere antwoorden, een concept dat bekend staat als Jevons-paradox.

“Hoewel slimmere algoritmen de efficiëntie zullen vergroten, is de belangrijkste waarde van AI het vermogen om een ​​brede oplossingsruimte te verkennen”, aldus het Sakana AI-team. “Naarmate de gevolgtrekkingskosten dalen, zullen bedrijven er waarschijnlijk voor kiezen om die betaalbaarheid te benutten om diepere en bredere onderzoeken uit te voeren om superieure oplossingen te vinden, in plaats van simpelweg te besparen.”

Deze experimenten benadrukken de enorme waarde die nog moet worden onthuld door middel van tijdschalingstechnieken. Naarmate AI-systemen het vermogen krijgen om complexe redeneringstaken in langere contexten uit te voeren, kunnen agenten door het bouwen van betere steigers en het toewijzen van grotere budgetten voor ‘denktijd’ wedijveren met vooraanstaande menselijke experts.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in