Onderzoekers bij Google hebben een techniek ontwikkeld die het voor AI-modellen gemakkelijker maakt om complexe redeneertaken te leren die er doorgaans voor zorgen dat LLM’s hallucineren of uit elkaar vallen. In plaats van LLM te trainen via de voorspelling van de volgende token, wordt hun techniek aangeroepen leren van interne versterking (interne RL), richt de interne activering van het model op de ontwikkeling van een stapsgewijze oplossing op hoog niveau voor het invoerprobleem.
Uiteindelijk zou dit een schaalbaar pad kunnen bieden naar het creëren van autonome agenten die complexe redeneringen en real-world robotica aankunnen zonder de noodzaak van constante handmatige begeleiding.
De volgende beperking van tokenvoorspelling
Versterkend leren speelt een sleutelrol bij de LLM na de training, vooral voor complexe redeneringstaken die langetermijnplanning vereisen. Het probleem ligt echter in de architectuur van het model. LLM’s zijn autoregressief, wat betekent dat ze reeksen per token genereren. Wanneer deze modellen tijdens de training nieuwe strategieën verkennen, doen ze dit door kleine, willekeurige wijzigingen aan te brengen in daaropvolgende tokens of acties. Dit brengt een diepere beperking aan het licht: het voorspellen van het volgende token dwingt het model om naar oplossingen op het verkeerde abstractieniveau te zoeken, waardoor redeneren op de lange termijn inefficiënt wordt, zelfs als het model ‘weet’ wat het moet doen.
Deze token-voor-token-aanpak werkt goed voor basistaalmodellering, maar werkt niet bij langetermijntaken waar weinig beloning tegenover staat. Als het model uitsluitend gebaseerd is op willekeurige steekproeven op tokenniveau, is de kans op het vinden van de juiste meerstapsoplossing extreem klein, “in de orde van één op een miljoen”, aldus de onderzoekers.
Het probleem is niet alleen dat het model in de war raakt; het komt omdat ze op het verkeerde niveau in de war raken. In commentaar aan VentureBeat merkte Yanick Schimpf, een van de auteurs van het artikel, op dat een agent bij een taak van twintig stappen kan verdwalen in de kleine details van een enkele stap, of het algemene doel uit het oog kan verliezen.
“Wij denken dat wanneer je problemen ondervindt met abstracte structuren… (doelgerichte verkenning) is wat je wilt”, zei Schimpf. Door het probleem eerst op een abstract niveau op te lossen, legt de agent zich vast aan een pad en zorgt ervoor dat het pad niet “verdwaalt in een van de redeneerstappen” en er niet in slaagt de bredere workflow te voltooien.
Om dit aan te pakken, heeft het veld lang gekeken naar hiërarchisch versterkend leren. HRL probeert complexe problemen op te lossen door ze op te splitsen in een hiërarchie van tijdelijk abstracte acties (subroutines op hoog niveau die verschillende stadia van de oplossing vertegenwoordigen) in plaats van taken te beheren als een reeks tokens.
Het vinden van deze juiste subroutines blijft echter een al lang bestaande uitdaging. De huidige HRL-methoden slagen er vaak niet in het juiste beleid te vinden, en ‘komen vaak samen in gedegenereerde keuzes’ die geen betekenisvol gedrag vertegenwoordigen. Zelfs ultramoderne moderne methoden zoals GRPO (een populair RL-algoritme dat wordt gebruikt voor taken met schaarse beloningen) falen in complexe omgevingen omdat ze de kloof tussen uitvoering op laag niveau en planning op hoog niveau niet effectief kunnen overbruggen.
Het sturen van het interne denken van de LLM
Om deze beperkingen te overwinnen, heeft het Google-team interne RL voorgesteld. Geavanceerde autoregressieve modellen ‘weten’ intern al hoe ze complexe, uit meerdere stappen bestaande taken moeten uitvoeren, ook al zijn ze daar niet expliciet in getraind.
Omdat dit complexe gedrag verborgen is in de reststroom van het model (d.w.z. de numerieke waarden die informatie door de netwerklagen transporteren), introduceerden de onderzoekers een ‘interne neurale netwerkcontroller’ of metacontroller. In plaats van uitvoertokens te monitoren en te wijzigen, controleert de metacontroller het gedrag van het model door wijzigingen in de interne activeringen van het model in de middelste lagen te implementeren.
Deze duwtje in de rug stuurt het model naar een bepaalde bruikbare staat. Het basismodel genereert vervolgens automatisch de reeks individuele stappen die nodig zijn om dat doel te bereiken, omdat het deze patronen heeft gezien tijdens de initiële pre-training.
De metacontroller werkt via onbewaakt leren en vereist geen door mensen gelabelde trainingsvoorbeelden. In plaats daarvan gebruiken onderzoekers een zelfgecontroleerd raamwerk waarin het model de hele reeks gedragingen analyseert en achteruit werkt om de verborgen intenties op hoog niveau af te leiden die de actie het beste verklaren.
Tijdens de interne RL-fase worden updates toegepast op de metacontroller, waardoor de training verschuift van het voorspellen van het volgende token naar het leren van acties op hoog niveau die tot een oplossing kunnen leiden.
Om de praktische waarde ervan te begrijpen, kunt u een bedrijfsagent overwegen die belast is met het maken van code. Tegenwoordig is er een lastige afweging: je hebt een ‘lage temperatuur’ (voorspelbaarheid) nodig om de syntaxis correct te krijgen, maar een ‘hoge temperatuur’ (creativiteit) om logische puzzels op te lossen.
“Interne RL zou dit kunnen vergemakkelijken door het model de ruimte van abstracte acties te laten verkennen, namelijk het construeren van logica en methodeaanroepen, terwijl de realisatie van die acties op tokenniveau wordt gedelegeerd aan een krachtige, onderliggende modeldistributie met een lagere dichtheid”, aldus Schimpf. De agent onderzoekt oplossingen zonder de syntaxis te breken.
De onderzoekers onderzochten twee methoden om deze controller te implementeren. In de eerste fase wordt het basis-autoregressieve model eerst getraind op de gedragsdataset en vervolgens bevroren, terwijl de metacontroller wordt getraind om de resterende stroom van het bevroren model te sturen. In het tweede geval worden de metacontroller en het basismodel samen geoptimaliseerd, waarbij de parameters van beide netwerken gelijktijdig worden bijgewerkt.
Interne RL in actie
Om de effectiviteit van interne RL te evalueren, voerden de onderzoekers experimenten uit in hiërarchische omgevingen die bedoeld waren om traditionele leerlingen te verwarren. Deze omvatten afzonderlijke rasterwerelden en continue controletaken waarbij vierpotige robot-“mieren” gezamenlijke bewegingen moeten coördineren. Beide omgevingen gebruiken schaarse beloningen met zeer lange actiescènes.
Terwijl baselines zoals GRPO en CompILE er niet in slagen een taak in één miljoen afleveringen te leren vanwege de moeilijkheid om over een lange periode credits te geven, behaalt interne RL een hoog succespercentage met een klein aantal trainingsepisodes. Door doelen op hoog niveau te kiezen in plaats van kleine stappen, verkleint de metacontroller de zoekruimte drastisch. Hierdoor kan het model identificeren welke beslissingen op hoog niveau tot succes leiden, waardoor de krediettoewijzing efficiënt genoeg wordt om het probleem van schaarse beloningen op te lossen.
Concreet ontdekten de onderzoekers dat de ‘bevroren’ aanpak superieur was. Wanneer het basismodel en de metacontroller vanaf nul samen worden getraind, slaagt het systeem er niet in betekenisvolle abstracties te ontwikkelen. Wanneer de metacontroller echter wordt toegepast op een bevroren model, vindt hij met succes belangrijke controlepunten zonder menselijke labels, waardoor zijn interne schakelmechanismen worden afgestemd op het moment van de grondwaarheid waarop de agent het ene subdoel voltooit en aan het volgende subdoel begint.
Omdat de hedendaagse industrie gefixeerd is op redeneermodellen die langdradige ‘gedachteketens’ produceren om problemen op te lossen, wijst het onderzoek van Google op een andere en wellicht efficiëntere toekomst.
“Onze studie sluit aan bij een groeiend aantal onderzoeken waaruit blijkt dat ‘intern redeneren’ niet alleen haalbaar is, maar potentieel efficiënter dan op tokens gebaseerde benaderingen”, aldus Schimpf. “Bovendien kunnen deze stille ‘gedachten’ worden gescheiden van specifieke inputmodaliteiten – een eigenschap die bijzonder relevant kan zijn voor de toekomst van multimodale AI.”
Als intern redeneren kan worden geleid zonder te worden geëxternaliseerd, zal de toekomst van AI-agenten minder afhankelijk zijn van aandrijfstrategieën en meer van hoe goed we toegang kunnen krijgen tot reeds intern representatieve modellen en deze kunnen sturen. Voor bedrijven die afhankelijk zijn van autonome systemen die op de lange termijn moeten plannen, aanpassen en handelen, kunnen deze veranderingen belangrijker zijn dan welke nieuwe benchmark dan ook.



