Onderzoeker bij Google Cloud En Universiteit van Californië hebben een nieuw raamwerk voor versterkend leren voorgesteld dat het vermogen van taalmodellen om zeer uitdagende redeneertaken in meerdere stappen te leren aanzienlijk verbetert. Begeleid versterkend leren (SRL) herformuleert het oplossen van problemen als een reeks logische ‘acties’, die rijke leersignalen opleveren tijdens het trainingsproces.
Met deze aanpak kunnen kleinere modellen complexe problemen leren die voorheen onbereikbaar waren met andere gangbare trainingstechnieken. Experimenten tonen aan dat SRL niet alleen uitblinkt in benchmarks voor wiskundig redeneren, maar ook effectief generaliseert naar software-engineeringtaken van agenten.
SRL is een veelzijdig trainingsframework dat kleinere, goedkopere modellen kan opschalen naar hogere redeneringsmogelijkheden.
Huidige beperkingen van LLM-redeneertraining
Recente ontwikkelingen bij het trainen van grote taalmodellen (LLM’s) voor redeneren zijn grotendeels te danken aan versterkend leren met verifieerbare beloningen (RLVR), een methode waarbij modellen worden beloond op basis van de juistheid van hun uiteindelijke antwoorden. Door herhaaldelijk te proberen het probleem op te lossen en feedback te krijgen over de uiteindelijke resultaten, leert het model geleidelijk effectieve probleemoplossende strategieën.
Het succes van deze op resultaten gebaseerde aanpak hangt echter af van het vermogen van het model om de juiste oplossing te vinden binnen een beperkt aantal tests, oftewel ‘implementaties’. Omdat elke lancering rekentechnisch duur is, kan het model niet voor onbepaalde tijd worden uitgeprobeerd. Deze methode loopt dood als het probleem zo moeilijk is dat het model zelden of nooit het juiste antwoord vindt binnen zijn budget.
Dit creëert kritische leerbarrières. Bij veel meerstapsredeneringsproblemen kan een model verschillende stappen correct uitvoeren, maar mislukken vanwege een enkele fout, wat resulteert in een onjuist antwoord. Met RLVR wordt al deze inspanning negatief beloond, en het model leert niets van zijn gedeeltelijk correcte werk. Het is een alles-of-niets-aanpak die geen gedetailleerde feedback oplevert en er weinig voor teruggeeft.
Een alternatieve methode is supervisie fine-tuning (SFT), waarbij het model leert van voorbeelden met volledige redeneerprocessen die door experts zijn voorgesteld. Hoewel SFT het redeneervermogen kan vergroten, leidt het vaak tot overfitting (het model leert simpelweg trajecten in de trainingsgegevens te imiteren in plaats van te leren generaliseren naar het probleem buiten de voorbeelden die het heeft gezien). Dit probleem wordt verergerd door het feit dat door mensen gegenereerde trainingsgegevens van hoge kwaliteit uiterst zeldzaam zijn en duur om te produceren.
Zoals opgemerkt in het artikel laten deze beperkingen “een kritische leemte achter in het trainen van kleine open source-modellen om effectief harde problemen te leren.”
Hoe begeleid versterkend leren werkt
SRL introduceert een raamwerk dat het oplossen van problemen herformuleert als een “opeenvolgend besluitvormingsproces”, waarbij een evenwicht wordt gevonden tussen puur resultaatgericht RL en puur imitatieleren. In plaats van simpelweg het uiteindelijke antwoord te optimaliseren of het model te dwingen het hele denkproces van de expert te imiteren, leert SRL het model een reeks sleutelacties te reproduceren die de ruggengraat vormen van de redenering van de expert. Hierdoor kan het model leren soortgelijke acties te ondernemen als een expert, terwijl het zijn eigen interne redeneerstijl ontwikkelt.
In het SRL-raamwerk worden demonstraties van deskundigen opgesplitst in een reeks concrete en tussentijdse acties, die elk een betekenisvolle stap vertegenwoordigen. Voor wiskundige problemen kan een actie een algebraïsche manipulatie zijn. Voor een software-engineeringagent kan dit een opdracht zijn die wordt uitgevoerd in een codeopslagplaats. Om trainingsdata te genereren gebruikt SRL een krachtig lerarenmodel om oplossingstrajecten te creëren, die vervolgens worden gebruikt om kleinere modellen te trainen.
Volgens I-Hung Hsu, wetenschappelijk onderzoeker bij Google en een van de auteurs van het artikel, is deze middenwegbenadering van cruciaal belang voor de effectiviteit ervan in reële scenario’s. “SRL ligt ergens in het midden: het weerspiegelt de gestructureerde flexibiliteit van het oplossen van problemen in de echte wereld, waarbij er meerdere geldige strategieën zijn, maar ook een duidelijk idee van hoe ‘goed redeneren’ er bij elke stap uitziet”, vertelde Hsu aan VentureBeat. “Dit maakt SRL zeer geschikt voor domeinen als data science-automatisering of misschien supply chain-optimalisatie – taken die waarde hechten aan een gezonde tussenredenering en niet alleen aan een definitief antwoord.”
Tijdens de training genereert het model eerst een ‘innerlijke monoloog’ (het interne redeneringsproces dat daarin besloten ligt).
SRL in actie
Uit de experimenten van de onderzoekers bleek dat SRL aanzienlijk beter presteerde dan robuuste basislijnen in zowel uitdagende wiskundige redeneringen als benchmarks voor agentsoftware-engineering. Ze merkten ook op dat SRL flexibelere en geavanceerdere redeneerpatronen in het model aanmoedigt, zoals interleaved planning en zelfverificatie, waardoor de kwaliteit van de oplossing verbetert zonder dat de output simpelweg langer duurt.
Voor bedrijfsleiders zijn prestatieverbeteringen alleen waardevol als ze geen onvermijdelijke kosten met zich meebrengen. Hsu verduidelijkte dat door SRL getrainde modellen efficiënter redeneren. “De voordelen komen voort uit een betere kwaliteit en structuur van de redenering, niet uit breedsprakigheid”, zei hij. “In termen van efficiëntie is het door SRL getrainde model ongeveer gelijk aan het basismodel wat betreft tokengebruik… hoewel SRL niet is ontworpen om de inferentiekosten te verminderen, bereikt het sterkere redeneerprestaties zonder deze te verbeteren.”
Voor de wiskundetoets heeft het team het geperfectioneerd Qwen2.5-7B-Instrueer op een dataset van 1.000 moeilijke wiskundige problemen. Ze vergeleken de prestaties ervan met modellen die waren getraind met SFT en RLVR (met behulp van het gemeenschappelijke GRPO-algoritme op vergelijkbare modellen). DeepSeek-R1) op vier wiskundebenchmarks op competitieniveau. Het door SRL getrainde model behaalde een gemiddelde prestatieverbetering van 3,0% vergeleken met andere methoden.
Het team breidde SRL uit naar agentsoftware-engineering, een cruciaal domein voor bedrijfsautomatisering. Ze trainen coderingsspecifieke modellen, Qwen2.5-Coder-7B-Instrueerop 5.000 experttrajecten van agenten die interactie hebben met een codeeromgeving. Het SRL-getrainde model wordt vergeleken met het originele basismodel en SWE-Gym-7B, een robuuste basislijn uitgebreid met SFT. SRL behaalde een taakvoltooiingspercentage van 14,8%, wat een relatieve verbetering van 74% betekent vergeleken met het op SFT gebaseerde model. Dit demonstreert het vermogen van SRL om competentere AI-agenten te trainen voor complexe programmeertaken in de echte wereld.
Een nieuwe standaard voor AI met hoge inzet?
De sterkste resultaten uit dit artikel komen voort uit het combineren van methoden: eerst het gebruik van SRL om basisredeneringen aan te leren, en vervolgens het gebruik van RLVR om die vaardigheden te verfijnen. Toen de onderzoekers in hun experimenten SRL gebruikten als pre-training en RLVR toepasten tijdens de post-training, constateerden ze een gemiddelde stijging van 3,7%, wat wijst op een krachtige curriculumleerstrategie.
Dit roept de vraag op of dit een nieuwe blauwdruk zou kunnen zijn voor het bouwen van gespecialiseerde AI.
“Wij beschouwen SRL als een sterke basis”, aldus Hsu. “In zekere zin biedt SRL een curriculum – een onderwijsmodel voor stap voor stap denken en handelen – voordat we dat gedrag verfijnen met op resultaten gebaseerd versterkend leren. Deze SRL-eerste benadering stabiliseert niet alleen de latere stadia van RL, maar maakt het redeneren ook beter interpreteerbaar en generaliseerbaar, wat van cruciaal belang is voor toepassingen met hoge inzet.”
Vooruitkijkend erkende Hsu dat het opschalen van deze pijplijn nog steeds voor uitdagingen staat, met name de hoge kosten en complexiteit van end-to-end RLVR voor agenttaken. Hij is echter optimistisch over zijn toekomst. “Hoewel hoogwaardige experttrajecten belangrijk blijven”, besluit hij, “denken we dat de volgende grote sprong zal komen uit het automatiseren van het genereren en filteren – het benutten van krachtige lerarenmodellen of zelfs zelfverbeterende leerlingmodellen om nieuwe gegevens op te bouwen.”



