Patronus AIstartup voor evaluatie van kunstmatige intelligentie ondersteund door $ 20 miljoen van investeerders incl Lightspeed-zakenpartners En gegevens hondheeft dinsdag een nieuwe trainingsarchitectuur onthuld die volgens haar een fundamentele verschuiving vertegenwoordigt in de manier waarop AI-agenten complexe taken leren uitvoeren.
De technologie die het bedrijf ‘Generatieve simulator”, creëert een adaptieve simulatieomgeving die voortdurend nieuwe uitdagingen genereert, regels dynamisch bijwerkt en de prestaties van agenten evalueert terwijl de agent leert – en dat allemaal in realtime. Deze aanpak markeert een afwijking van statische benchmarks die lange tijd de industriestandaard zijn geweest voor het meten van AI-mogelijkheden, maar die steeds meer onder vuur komen te liggen omdat ze de prestaties in de echte wereld niet konden voorspellen.
“Traditionele benchmarks meten geïsoleerde capaciteiten, maar houden geen rekening met de onderbrekingen, contextverschuivingen en gelaagde besluitvorming die echt werk definiëren”, zegt Anand Kannappan, CEO en medeoprichter van Patronus AI, in een exclusief interview met VentureBeat. “Als agenten op menselijk niveau willen werken, moeten ze leren hoe mensen het doen – door middel van dynamische ervaring en voortdurende feedback.”
Deze aankondiging komt op een cruciaal moment voor de AI-industrie. AI-agenten veranderen de softwareontwikkeling, van het schrijven van code tot het uitvoeren van complexe instructies. Op LLM gebaseerde agents zijn echter foutgevoelig en presteren vaak slecht bij complexe taken die uit meerdere stappen bestaan. Uit onderzoek dat eerder dit jaar werd gepubliceerd, bleek dat agenten met slechts a Foutpercentage 1% per stap kan de kans op mislukking bij de honderdste stap met 63% vergroten – een ontnuchterende statistiek voor bedrijven die autonome AI-systemen op grote schaal willen inzetten.
Waarom statische AI-benchmarks falen – en wat er daarna gebeurt
De aanpak van Patronus AI richt zich op wat het bedrijf beschrijft als een groeiende discrepantie tussen de manier waarop AI-systemen worden geëvalueerd en hun daadwerkelijke prestaties in de productie. Traditionele benchmarks, zegt het bedrijf, functioneren als gestandaardiseerde tests: ze meten specifieke vaardigheden op een specifiek tijdstip, maar hebben moeite om de rommelige en onvoorspelbare aard van echt werk vast te leggen.
De nieuwe Generatieve simulator architectuur keert dit model om. In plaats van agenten een vaste reeks vragen te stellen, genereert het systeem on-the-fly opdrachten, omgevingsomstandigheden en monitoringprocessen en past het zich vervolgens aan op basis van het gedrag van agenten.
“Het afgelopen jaar hebben we een verschuiving gezien van traditionele statische benchmarks naar een meer interactieve leerruimte”, vertelde Rebecca Qian, chief technology officer en mede-oprichter van Patronus AI, aan VentureBeat. “Dit is gedeeltelijk te danken aan de innovatie die we zien bij modelontwikkelaars – een verschuiving naar versterkend leren, post-training en continu leren, en weg van begeleid maatwerk van instructie. Dat wil zeggen, er is een ineenstorting van het onderscheid tussen training en evaluatie. Benchmarking is de omgeving geworden.”
De technologie is gebaseerd op versterkend leren – een aanpak waarbij AI-systemen met vallen en opstaan leren, waarbij beloningen worden ontvangen voor correcte acties en bestraffing voor fouten. Reinforcement learning is een aanpak waarbij AI-systemen leren optimale beslissingen te nemen door beloningen of straffen te ontvangen voor hun acties, en zich met vallen en opstaan te verbeteren. RL kan agenten helpen beter te worden, maar vereist meestal dat ontwikkelaars hun code uitgebreid herschrijven. Dit belemmert de acceptatie, ook al kunnen de gegevens die deze agenten genereren de prestaties aanzienlijk verbeteren door middel van RL-training.
Patronus AI introduceert ook een nieuw concept dat het ‘Ontgrendel recursieve zelfverbetering“of ORSI – een omgeving waarin agenten voortdurend kunnen verbeteren door middel van interactie en feedback zonder dat er volledige herscholingscycli tussen inspanningen nodig zijn. Het bedrijf positioneert dit als een cruciale infrastructuur voor de ontwikkeling van AI-systemen die in staat zijn om voortdurend te leren en op geen enkel moment stil te staan.
Binnen de ‘Goldilocks Zone’: hoe adaptieve AI-training zijn goede plek vindt
In het hart Generatieve simulator ligt in wat Patronus AI een ‘curriculum customizer’ noemt – een component die het gedrag van agenten analyseert en op dynamische wijze de moeilijkheidsgraad en aard van trainingsscenario’s verandert. Deze aanpak is geïnspireerd op de manier waarop menselijke leraren hun onderwijs effectief aanpassen op basis van de prestaties van hun leerlingen.
Qian legt de aanpak uit met behulp van een analogie: “Je kunt dit zien als een leraar-leerlingmodel, waarbij we het model trainen en de professor het curriculum voortdurend aanpast.”
Deze adaptieve benadering pakt het probleem aan van wat Kannappan beschrijft als het vinden van de ‘Goudlokje-zone’ in trainingsgegevens – en zorgt ervoor dat voorbeelden niet te gemakkelijk of te moeilijk zijn voor een bepaald model om effectief te leren.
“Het gaat er niet alleen om of je kunt trainen op een dataset, maar ook of je kunt trainen op een hoogwaardige dataset waarop je model is afgestemd – een dataset die daadwerkelijk kan leren”, zegt Kannappan. “We willen ervoor zorgen dat de gegeven voorbeelden niet te moeilijk zijn voor het model, maar ook niet te gemakkelijk.”
Het bedrijf zei dat de eerste resultaten betekenisvolle verbeteringen laten zien in de prestaties van agenten. Training in de Patronus AI-omgeving heeft volgens het bedrijf het voltooiingspercentage van taken met 10% tot 20% verhoogd voor echte taken, waaronder software-engineering, klantenservice en financiële analyse.
Het AI-cheating-probleem: hoe een ‘moving target’-omgeving bounty-hacking voorkomt
Een van de meest urgente uitdagingen bij het trainen van AI-agenten door middel van versterkend leren is een fenomeen dat onderzoekers noemen “beloning voor het hacken“-waar systemen leren mazen in hun trainingsomgeving te misbruiken in plaats van het probleem daadwerkelijk op te lossen. Beroemde voorbeelden zijn vroege agenten die leerden zich in de hoeken van videogames te verstoppen in plaats van ze daadwerkelijk te spelen.
Generatieve Simulators pakken dit aan door van de trainingsomgeving zelf een bewegend doelwit te maken.
“Het hacken van beloningen is eigenlijk een probleem als het systeem statisch is. Het is net alsof studenten leren om te spieken bij examens”, zegt Qian. “Maar naarmate we de omgeving blijven evolueren, kunnen we delen van het systeem zien die zich moeten aanpassen en evolueren. Statische benchmarks zijn een vast doelwit; generatieve simulatoromgevingen zijn een bewegend doelwit.”
Patronus AI rapporteert een omzetgroei van 15x naarmate de vraag van bedrijven naar training van agenten toeneemt
Patronus AI positioneert Genative Simulator als basis voor een nieuwe productlijn die het “RL-omgeving“- een oefenterrein ontworpen voor basismodelleringslaboratoria en bureaus voor bedrijfsontwikkeling voor specifieke domeinen. Het bedrijf zegt dat dit aanbod een strategische uitbreiding vertegenwoordigt die verder gaat dan de oorspronkelijke focus op evaluatie-instrumenten.
“Onze omzet is dit jaar vijftien keer gegroeid, grotendeels dankzij de hoogwaardige omgeving die we hebben ontwikkeld en die zeer gemakkelijk te leren is gebleken door veel verschillende soorten grensmodellen”, aldus Kannappan.
De CEO weigerde details te geven over de absolute omzetcijfers, maar zei dat het nieuwe product het bedrijf in staat heeft gesteld “om hogerop te komen in termen van waar we verkopen en aan wie we verkopen”. Het platform van het bedrijf wordt gebruikt door veel Fortune 500-bedrijven en toonaangevende AI-bedrijven over de hele wereld.
Waarom kunnen OpenAI, Anthropic en Google het niet allemaal zelf maken?
Een centrale vraag bij de hand Patronus AI dat is de reden waarom laboratoria met grote zakken geavanceerde modellen ontwikkelen – zulke organisaties Open AI, AntropischEn Google Deepmind — opleidingsinfrastructuur in licentie zal geven in plaats van deze intern te bouwen.
Kannappan erkende dat deze bedrijven “aanzienlijk investeren in de milieuruimte”, maar voerde aan dat de breedte van de domeinen die gespecialiseerde training vereisen een natuurlijke kans creëert voor externe leveranciers.
“Ze willen agenten inzetten in veel verschillende domeinen, of het nu gaat om coderen of het gebruik van tools of het navigeren door browsers of workflows in de financiële wereld, de gezondheidszorg, de energiesector en het onderwijs”, zegt hij. “Het oplossen van al deze verschillende operationele problemen is voor één bedrijf erg lastig.”
Het concurrentielandschap wordt steeds moeilijker. Microsoft heeft het zojuist uitgebracht Bliksemagenteen open source-framework dat ervoor zorgt dat versterkend leren voor elke AI-agent werkt zonder te herschrijven. eigendom van NVIDIA NeMo Gymnasium biedt een modulaire RL-infrastructuur voor het ontwikkelen van AI-systemen voor agenten. Meta-onderzoekers vrijgegeven Droom spel in november een raamwerk dat RL-omgevingen simuleert en de moeilijkheidsgraad van taken dynamisch aanpast naarmate agenten verbeteren.
‘Het milieu is de nieuwe olie’: Patronus AI’s gedurfde gok op de toekomst van AI-training
In de toekomst plant Patronus AI zijn missie als geheel. Het bedrijf wil “alle data ter wereld groener maken” door menselijke workflows om te zetten in gestructureerde systemen waar AI van kan leren.
“Wij vinden dat alles milieuvriendelijk moet zijn. Intern grappen we dat milieu de nieuwe olie is”, zegt Kannappan. “Versterkingsleren is slechts één trainingsmethode, maar ecologische constructie is het allerbelangrijkste.”
Qian beschrijft deze kans in grote lijnen: “Dit is een compleet nieuw onderzoeksgebied, een gebied dat niet elke dag voorkomt. Generatieve simulatie is geïnspireerd door vroeg onderzoek op het gebied van robotica en belichaamde agenten. Dit is al tientallen jaren een droom, en we zijn nu pas in staat deze ideeën te verwezenlijken dankzij de mogelijkheden van de hedendaagse modellen.”
Het bedrijf werd in september 2023 gelanceerd met de nadruk op evaluatie: bedrijven helpen hallucinaties en veiligheidsproblemen bij AI-output te identificeren. Die missie heeft zich nu uitgebreid naar de opleiding zelf. Patronus AI stelt dat de traditionele scheiding tussen evaluatie en training begint te vervagen – en dat degene die de omgeving controleert waarin AI-agenten leren, hun capaciteiten zal vormgeven.
“We bevinden ons echt op dit omslagpunt, dit keerpunt, waar wat we nu doen van invloed zal zijn op hoe de wereld er in toekomstige generaties uit zal zien”, zei Qian.
Of Generatieve simulator Of het die belofte kan waarmaken valt nog te bezien. De vijftienvoudige omzetgroei van het bedrijf laat zien dat zakelijke klanten hongerig zijn naar oplossingen, maar spelers met diepe zakken willen die ook Microsoft naar Meta racen om hetzelfde onderliggende probleem op te lossen. De afgelopen twee jaar hebben de industrie een les geleerd, namelijk dat de toekomst op het gebied van AI de gewoonte heeft om eerder dan gepland te arriveren.


