Onderzoeker bij EERLIJK Meta en het Nationale Universiteit van Singapore heeft een nieuw leerraamwerk voor versterking ontwikkeld om AI-systemen autonoom te verbeteren.
Genaamd Onafhankelijk spelen in een corpusomgeving (SPICE)dit raamwerk zet twee AI-agenten tegenover elkaar, creëert zijn eigen uitdagingen en verbetert geleidelijk zonder menselijk toezicht.
Hoewel dit momenteel een proof of concept is, zou dit zelfspeelmechanisme de basis kunnen vormen voor toekomstige AI-systemen die zich dynamisch kunnen aanpassen aan hun omgeving, waardoor ze veerkrachtiger worden in het licht van onzekerheden over toepassingen in de echte wereld.
Zelfverbeterende AI-uitdagingen
Het doel van AI-ontwikkeling is het creëren van capabele systemen hun vaardigheden verbeteren door interactie met hun omgeving.
Een veel voorkomende aanpak is versterkend leren met verifieerbare beloningen (RLVR), waarbij het model wordt beloond voor het geven van het juiste antwoord op het probleem. Het wordt vaak beperkt door de afhankelijkheid van door mensen samengestelde probleemsets en domeinspecifieke beloningstechniek, waardoor het moeilijk is op te schalen.
Zelfspel, waarbij een model beter wordt door met zichzelf te concurreren, is een ander veelbelovend paradigma. Bestaande onafhankelijke spelmethoden voor taalmodellen worden echter vaak beperkt door twee belangrijke factoren.
-
Fdaadwerkelijke fouten in de combinatie van vragen en antwoorden, wat leidt tot een hallucinante feedbackloop.
-
Wanneer probleemmakers en -oplossers over symmetrische informatie beschikken (bijvoorbeeld dezelfde kennisbasis delen), slagen ze er niet in om echt nieuwe uitdagingen te genereren en vervallen ze in repetitieve patronen.
Zoals de onderzoekers in hun artikel opmerken: “Deze systematische empirische mislukking suggereert dat zelfverbetering interactie vereist met externe bronnen die diverse en verifieerbare feedback bieden, in plaats van pure, gesloten introspectie.”
Hoe SPICE werkt
SPICE is een op zichzelf staand raamwerk waarin één model twee verschillende rollen vervult.
-
Een ‘uitdager’ stelt een curriculum met uitdagende problemen samen uit een grote verzameling documenten.
-
Een “Reasoner” probeert dit probleem vervolgens op te lossen zonder toegang tot de brondocumenten.
Deze opzet doorbreekt de informatiesymmetrie die andere self-play-methoden beperkt, omdat Reasoner geen toegang heeft tot de documenten en kennis die Challenger gebruikt om problemen te genereren.
Het baseren van opdrachten op een brede en diverse reeks documenten voorkomt hallucinaties door vragen en antwoorden te verankeren in echte inhoud. Dit is belangrijk omdat AI-systemen zich onafhankelijk willen ontwikkelen als ze een externe basis nodig hebben. Daarom moeten LLM-agenten leren van interacties met mensen en de echte wereld, en niet alleen van hun eigen output, om samengestelde fouten te voorkomen.
De vijandige dynamiek tussen de twee rollen creëert een geautomatiseerd curriculum.
Uitdagers worden beloond voor het genereren van problemen die divers zijn en die tot de mogelijkheden van Reasoner behoren (niet te gemakkelijk en ook niet onmogelijk).
De Redenaar wordt beloond voor het juiste antwoord. Deze symbiotische interactie moedigt beide agenten aan om voortdurend nieuwe uitdagingen te ontdekken en te overwinnen.
Omdat het systeem gebruikmaakt van onbewerkte documenten in plaats van vooraf bepaalde vraag-antwoordparen, kan het een verscheidenheid aan opdrachtformaten produceren, zoals meerkeuzevragen en vragen in vrije vorm.
Dankzij deze flexibiliteit kan SPICE op elk domein worden toegepast, waardoor de barrières worden doorbroken die eerdere methoden beperkten tot beperkte gebieden zoals wiskunde en code. Het vermindert ook de afhankelijkheid van dure, door mensen samengestelde datasets voor gespecialiseerde domeinen zoals juridische of medische analyse.
SPIJS in actie
De onderzoekers evalueerden SPICE op verschillende basismodellen, waaronder Qwen3-4B-basis En OctoThinker-3B-Hybride-Base.
Ze vergeleken hun prestaties met baselines zoals een baselinemodel zonder training, een Reasoner-model getraind met een vaste “Strong Challenger” (Qwen3-32B-Instruct) en pure zelfspeelmethoden zoals R-Zero en Absolute Zero. De evaluatie omvat een verscheidenheid aan benchmarks voor wiskundig en algemeen redeneren.
In alle modellen presteert SPICE consistent beter dan de basislijn, wat aanzienlijke verbeteringen oplevert in zowel wiskundige als algemene redeneertaken.
De resultaten laten zien dat redeneervermogen wordt ontwikkeld door de uitgebreide overdracht van corpusgebaseerd zelfspel naar verschillende modellen, dankzij het diverse corpus aan externe kennis dat ze gebruiken.
De belangrijkste bevinding is dat vijandige dynamieken een effectief geautomatiseerd curriculum creëren. Naarmate de training vordert, leert de Challenger steeds moeilijkere problemen te genereren.
In één experiment steeg het slagingspercentage van Reasoner voor een vaste reeks problemen in de loop van de tijd van 55% naar 85%, wat wijst op een verbetering van zijn vaardigheden.
Ondertussen kon de nieuwere versie van Challenger vragen genereren waardoor het slagingspercentage van Reasoner in een vroeg stadium daalde van 55% naar 35%, wat bevestigt dat beide rollen zich met succes ontwikkelen.
De onderzoekers concludeerden dat deze aanpak een paradigmaverschuiving vertegenwoordigt in de redeneermethoden voor zelfverbetering: van “gesloten zelfspel dat vaak vastloopt als gevolg van hallucinerende drift, naar open verbetering door interactie met uitgebreide, verifieerbare kennis ingebed in corpora van webdocumenten.”
Momenteel vertegenwoordigt het corpus dat voor SPICE wordt gebruikt de menselijke ervaring vastgelegd in tekst. Het uiteindelijke doel is dat het systeem zichzelf ontwikkelt en vragen genereert op basis van interacties met de werkelijkheid, inclusief de fysieke wereld, het internet, en menselijke interacties via modaliteiten zoals video, audio en sensorgegevens.



