Terwijl bedrijven LLM afstemmen op nieuwe taken, lopen ze het risico alles wat het model al weet te doorbreken. Dit dwingt bedrijven om voor elke vaardigheid aparte modellen te hanteren.
Onderzoekers van MIT, Improbable AI Lab en ETH Zurich hebben een nieuwe techniek ontwikkeld waarmee grote taalmodellen nieuwe vaardigheden en kennis kunnen leren zonder hun eerdere vaardigheden te vergeten.
Hun techniek heet het perfectioneren van uw eigen distillatie (SDFT), stelt modellen in staat rechtstreeks te leren van hun eigen demonstraties en experimenten door gebruik te maken van de in-context leermogelijkheden die inherent zijn aan moderne LLM’s. Experimenten tonen aan dat SDFT consistent beter presteert dan traditionele gesuperviseerde verfijning (SFT) en tegelijkertijd de beperkingen van algoritmen voor versterkend leren overwint.
Voor bedrijfstoepassingen zorgt deze methode ervoor dat één enkel model in de loop van de tijd veel vaardigheden kan verzamelen zonder dat de prestaties bij eerdere taken achteruitgaan. Dit biedt een potentieel pad voor het bouwen van AI-agenten die zich kunnen aanpassen aan dynamische zakelijke omgevingen, en waar nodig nieuwe kennis en vaardigheden kunnen verzamelen zonder dure omscholingscycli te vereisen of hun algemene redeneervermogen te verliezen.
Uitdaging om te blijven leren
Zodra LLM is getraind en geïmplementeerd, blijft het statisch. Het werkt zijn parameters niet bij om nieuwe vaardigheden te verwerven, nieuwe kennis te internaliseren of ervaring te vergroten. Om echt adaptieve AI te bouwen, moet de industrie problemen oplossen “continu leren”, zorgt ervoor dat het systeem kennis kan vergaren zoals mensen dat gedurende hun hele loopbaan doen.
De meest effectieve manier waarop modellen kunnen leren, is door middel van ‘beleidsleren’. Bij deze benadering leert het model van de gegevens die het zelf genereert, waardoor het model zijn eigen fouten en redeneerprocessen kan corrigeren. Dit is anders dan leren dat alleen een statische dataset imiteert. Zonder kennis over beleid is het model kwetsbaar voor ‘heel erg vergeten,” een fenomeen waarbij het leren van een nieuwe taak ervoor zorgt dat het model zijn kennis uit het verleden en het vermogen om de vorige taak uit te voeren, verliest.
Beleidsmatig leren vereist dit echter meestal versterkend leren (RL), dat afhankelijk is van een expliciete beloningsfunctie om de modeluitvoer te evalueren. Dit werkt goed voor problemen met duidelijke resultaten, zoals wiskunde en coderen. Maar in veel bedrijfsscenario’s in de echte wereld (bijvoorbeeld het schrijven van een juridisch rapport of het samenvatten van een vergadering) is het wiskundig definiëren van de beloningsfunctie moeilijk of onmogelijk.
RL-methoden falen ook vaak als ze proberen het model volledig nieuwe informatie te leren, zoals de protocollen van een bepaald bedrijf of een nieuwe productlijn. Zoals Idan Shenfeld, een promovendus aan het MIT en een van de auteurs van het artikel, tegen VentureBeat zei: “Hoe vaak het basismodel ook wordt geprobeerd, het kan niet het juiste antwoord opleveren voor een onderwerp waarover het geen enkele kennis heeft”, wat betekent dat het nooit een positief signaal krijgt om te leren.
Het standaardalternatief is gesuperviseerde verfijning (SFT), waarbij het model wordt getraind op een vaste dataset met expertdemonstraties. Hoewel SFT duidelijke basiswaarheden biedt, valt het in wezen ‘buiten het beleid’. Omdat deze modellen alleen de gegevens imiteren en niet leren van hun eigen inspanningen, slagen ze er vaak niet in om te generaliseren over niet-gedistribueerde voorbeelden en lijden ze enorm onder catastrofaal vergeten.
SDFT probeert deze kloof te overbruggen door de voordelen van beleidsgebaseerd leren mogelijk te maken door alleen vooraf opgenomen demonstraties te gebruiken, zonder de noodzaak van beloningsfunctionaliteit.
Hoe SDFT werkt
SDFT lost dit probleem op door gebruik te maken van ‘destillatie’, een proces waarbij een leerlingmodel een leraar leert imiteren. Het inzicht van de onderzoekers was om de ‘in-context learning’ (ICL)-mogelijkheden van het model te gebruiken om een feedbacklus binnen één enkel model te creëren.
Leren in context is een fenomeen waarbij je een LLM een moeilijke taak geeft en een of meer demonstraties geeft van hoe een soortgelijk probleem is opgelost. De meeste geavanceerde LLM’s zijn ontworpen om nieuwe problemen met ICL-voorbeelden op te lossen, zonder enige parameterupdates.
Tijdens de trainingscyclus gebruikt SDFT het model in twee rollen.
Docent: Een bevroren versie van het model wordt samen met een deskundige demonstratie in de query ingevoerd. Door gebruik te maken van ICL leidt de leraar het juiste antwoord af en de logische redenering die nodig is om tot dit antwoord te komen.
Student: Deze versie kijkt alleen naar queries en simuleert real-world implementatiescenario’s waarbij geen antwoordsleutel beschikbaar is.
Wanneer leerlingen antwoorden geven, geeft de docent, die toegang heeft tot deskundige demonstraties, feedback. De leerling werkt vervolgens de parameters bij, zodat ze dichter bij de verdeling van de leraar liggen.
Dit proces creëert effectief een leerlus die voldoet aan het beleid door SFT- en RL-elementen te combineren. Supervisie komt niet voort uit statische datasets, maar uit de interacties en output van het model zelf. Hierdoor kan het model zijn eigen redeneertraject corrigeren zonder dat daarvoor externe beloningssignalen nodig zijn. Dit proces werkt zelfs voor nieuwe kennis die RL mogelijk mist.
SDFT in actie
Om de aanpak te valideren, testten de onderzoekers SDFT met open gewichten ModelQwen 2.5 over drie complexe vaardigheden op ondernemingsniveau: wetenschappelijke vragen en antwoorden, gebruik van softwaretools en medisch redeneren.
De resultaten laten zien dat SDFT nieuwe taken effectiever leert dan standaardmethoden. Op de Science Q&A-benchmark behaalde het SDFT-model een nauwkeurigheid van 70,2%, vergeleken met 66,2% voor de standaard SFT-benadering.
Belangrijker voor de acceptatie door ondernemingen is de impact ervan op de vergeetramp. Wanneer het standaard SFT-model wetenschappelijke taken leert, neemt het vermogen om algemene vragen (zoals logica of geesteswetenschappen) te beantwoorden af. Daarentegen verbeterde het SDFT-model wetenschappelijke taken, terwijl de score voor “Vorige Taken” stabiel bleef op 64,5%. Deze stabiliteit suggereert dat bedrijven modellen kunnen specialiseren voor specifieke afdelingen (bijvoorbeeld HR of Legal) zonder het gezond verstand of de fundamentele redeneermogelijkheden van het model in gevaar te brengen.
Het team simuleerde ook een scenario voor kennisinjectie, waarbij een fictieve dataset ‘Natuurrampen 2025’ werd gecreëerd om het model nieuwe feiten te leren. Ze testten het model met indirecte redeneervragen, zoals “Welke landen zullen, gezien het optreden van overstromingen in 2025, het meest waarschijnlijk humanitaire hulp nodig hebben?”
Standaard SFT produceert modellen die feiten onthouden, maar heeft moeite deze te gebruiken in redeneerscenario’s. Het SDFT-model scoorde, na het internaliseren van de logica tijdens de training, 98% op dezelfde vraag.
Ten slotte voerden de onderzoekers sequentiële leerexperimenten uit, waarbij ze het model na elkaar trainden op wetenschap, gereedschapsgebruik en medische taken. Hoewel de prestaties van het standaardmodel fluctueren, waarbij eerdere vaardigheden verloren gaan terwijl nieuwe vaardigheden worden aangeleerd, slaagt het SDFT-model erin om alle drie de vaardigheden zonder regressie samen te voegen.
Deze mogelijkheid lost een groot probleem op voor bedrijven die momenteel een ‘dierentuinmodel’ van afzonderlijke adapters voor verschillende taken beheren.
“Wij bieden de mogelijkheid om slechts één model te onderhouden voor de gehele behoeften van een bedrijf”, aldus Shenfeld. Deze consolidatie “kan resulteren in een grote verlaging van de inferentiekosten”, omdat organisaties niet meerdere modellen tegelijk hoeven te hosten.
SDFT-beperkingen en beschikbaarheid
De code voor SDFT is beschikbaar op GitHub en kan worden geïntegreerd in bestaande modeltrainingsworkflows.
“De SDFT-pijplijn lijkt meer op de RL-pijplijn, omdat er tijdens de training online respons moet worden gegenereerd”, aldus Shenfeld. Ze werkten samen met Hugging Face om SDFT te integreren in Hugging Face Transformatorversterking leren (TRL), voegde hij eraan toe, waarbij hij opmerkte dat pull-aanvragen al openstaan voor ontwikkelaars die de integratie willen testen.
Voor teams die SDFT overwegen, zijn de praktische afwegingen afhankelijk van de modelgrootte en rekenkracht. De techniek vereist een model dat sterk genoeg is om in de context te leren om als eigen leraar te kunnen fungeren – momenteel zijn er ongeveer 4 miljard parameters met nieuwere architecturen zoals Qwen 3, hoewel Shenfeld schat dat binnenkort 1 miljard parametermodellen functioneel zullen zijn. Dit vereist ongeveer 2,5 keer de standaard aanpassingsberekening, maar is het meest geschikt voor organisaties die één enkel model nodig hebben om in de loop van de tijd meerdere vaardigheden te verzamelen, vooral in domeinen waar het definiëren van een beloningsfunctie voor versterkend leren moeilijk of onmogelijk is.
Hoewel effectief, gaat deze methode gepaard met computationele afwegingen. SDFT is ongeveer vier keer langzamer en vereist 2,5 keer meer rekenkracht (FLOP) dan standaardaanpassing, omdat het model tijdens de training actief zijn eigen antwoorden (“rollouts”) moet genereren om te vergelijken met docenten. De onderzoekers merken echter op dat organisaties, omdat het model kennis beter vasthoudt, het dure, uit meerdere fasen bestaande herscholingsproces kunnen vermijden dat vaak nodig is om een model te repareren dat lijdt aan catastrofaal vergeten.
Deze techniek is ook gebaseerd op een basismodel dat groot genoeg is om te profiteren van leren in context. Het artikel merkt op dat kleinere modellen (bijvoorbeeld 3 miljard parameters) aanvankelijk moeite hebben omdat ze niet over de ‘intelligentie’ beschikken om als hun eigen leraren op te treden.
Shenfeld zegt echter dat de snelle toename van kleine modellen deze dynamiek verandert. “Het Qwen 2.5 3B-model is te zwak, maar uit verschillende experimenten die we momenteel uitvoeren, hebben we ontdekt dat het Qwen 3 4B-model behoorlijk sterk is”, zei hij. “Ik zie een toekomst waarin zelfs het 1B-model ICL-mogelijkheden heeft die goed genoeg zijn om SDFT te ondersteunen.”
Uiteindelijk is het doel om door middel van gebruik verder te gaan dan een statisch beeld naar een beter systeem.
“Levenslang leren, samen met het vermogen om leersignalen uit ongestructureerde gebruikersinteracties te halen… zal resulteren in modellen die in de loop van de tijd voortdurend en continu verbeteren”, aldus Shenfeld.
“Denk eens aan het feit dat de meeste computers ter wereld al bezig zijn met inferentie, en niet met trainen. We moeten manieren vinden om deze computers te gebruiken om onze modellen te verbeteren.”


