Home Nieuws De nieuwe AI-trainingsmethode van Microsoft elimineert opgeblazen systeemopdrachten zonder dat dit ten...

De nieuwe AI-trainingsmethode van Microsoft elimineert opgeblazen systeemopdrachten zonder dat dit ten koste gaat van de modelprestaties

Door

februari 28, 2026

Bij het bouwen van LLM-applicaties moeten bedrijven vaak zeer langdurige systemen creëren om het modelgedrag voor hun applicaties aan te passen. Deze opdrachten bevatten bedrijfskennis, voorkeuren en toepassingsspecifieke instructies. Op bedrijfsschaal kan deze context de inferentielatentie tot boven aanvaardbare drempels brengen en de kosten per query aanzienlijk verhogen.

Contextdistillatie volgens beleid (OPCD), een nieuw trainingsframework voorgesteld door onderzoekers van Microsoft, helpt toepassingskennis en -voorkeuren rechtstreeks in een model op te nemen. OPCD gebruikt modelreacties tijdens de training, waardoor enkele valkuilen van andere trainingstechnieken worden vermeden. Dit vergroot de mogelijkheden van het model voor op maat gemaakte toepassingen, terwijl de algemene mogelijkheden behouden blijven.

Waarom lange systeemopdrachten een risico zijn

Leren in context stelt ontwikkelaars in staat het modelgedrag tijdens de inferentietijd bij te werken zonder de onderliggende parameters te wijzigen. Het bijwerken van parameters is doorgaans een langzaam en duur proces. Kennis in context is echter tijdelijk. Deze kennis voert geen ander gesprek met het model, wat betekent dat je het model elke keer een groot aantal dezelfde instructies of documenten moet invoeren. Voor bedrijfsapplicaties kan dit betekenen dat u herhaaldelijk bedrijfsbeleid, klanttickets of uitgebreide technische handleidingen in prompts moet plakken. Dit vertraagt uiteindelijk het model, verhoogt de kosten en kan het systeem in verwarring brengen.

“Bedrijven gebruiken vaak langdurige systeemopdrachten om veiligheidsbeperkingen af te dwingen (bijvoorbeeld detectie van haatzaaiende uitlatingen) of om domeinspecifieke expertise te bieden (bijvoorbeeld medische kennis)”, zegt Tianzhu Ye, een van de auteurs van het artikel en onderzoeker bij Microsoft Research Asia, in commentaar aan VentureBeat. “Lange verzoeken verhogen echter aanzienlijk de computationele overhead en latentie op het moment van inferentie.”

Het belangrijkste idee achter contextdistillatie is om het model te trainen om informatie die u herhaaldelijk in context invoert, te internaliseren. Net als anderen destillatie techniekhet volgt het leraar-leerlingparadigma. Guru is een AI-model dat zeer grote en gedetailleerde opdrachten ontvangt. Omdat het over alle instructies en referentiedocumenten beschikt, produceert het zeer op maat gemaakte antwoorden. De student is een model dat wordt getraind en dat alleen de hoofdvraag ziet en geen toegang heeft tot de volledige context. Het doel is simpelweg om de reactie van de leraar te observeren en zijn of haar gedrag te leren imiteren.

Door dit trainingsproces comprimeert het leerlingmodel op effectieve wijze complexe instructies van directe lerarenopdrachten in zijn parameters. Voor een bedrijf ontstaat de uiteindelijke waarde op het moment van inferentie. Omdat het studentenmodel zijn context heeft geïnternaliseerd, kunt u het in uw applicatie implementeren zonder dat u lange instructies hoeft terug te plakken. Dit maakt het model aanzienlijk sneller en heeft veel minder rekenkundige overhead.

Klassieke contextdistillatie is echter afhankelijk van een gebrekkige trainingsmethode die ‘off-policy training’ wordt genoemd, waarbij het model wordt getraind op een vaste dataset die vóór het trainingsproces is verzameld. Dit is op verschillende manieren problematisch. Tijdens de training worden studenten alleen blootgesteld aan grondwaarheidsgegevens en door docenten gegenereerde antwoorden, waardoor wat Ye ‘blootstellingsbias’ noemt ontstaat. Tijdens de productie moet het model zijn eigen set tokens genereren om tot het antwoord te komen. Omdat ze tijdens de training nooit oefenen met het nemen van hun eigen beslissingen of het herstellen van hun eigen fouten, kunnen ze gemakkelijk van het goede spoor raken als ze zelfstandig opereren. Het is alsof je studenten een video laat zien van een professionele chauffeur en verwacht dat ze zonder vallen en opstaan leren autorijden.

Een ander probleem is “vooruit”. Kullback-Leibler (KL) divergentie.“, een minimaliseringsmaatregel die wordt gebruikt om het model te trainen. Bij deze methode wordt het model gescoord op basis van hoe vergelijkbaar de antwoorden zijn met die van de leraar, waardoor het gedrag van ‘modusafsluiting’ wordt gestimuleerd, zegt Ye. Het model van de leerling is vaak kleiner of minder contextrijk dan dat van de leraar, wat betekent dat het niet het vermogen heeft om de complexe redenering van de leraar perfect te repliceren. Omdat leerlingen gedwongen worden al die mogelijkheden te proberen te dekken, worden de onderliggende gissingen te breed en ongericht.

In toepassingen in de echte wereld kan dit resulteren in hallucinaties, waarbij de AI in de war raakt en zelfverzekerd verhalen verzint omdat hij een diepgaande kennis probeert te imiteren die hij in werkelijkheid niet bezit. Dit betekent ook dat het model niet goed kan generaliseren naar nieuwe taken.

Hoe OPCD problemen tussen leraar en leerling oplost

Om een cruciaal probleem met de oude leraar-leerling-dynamiek op te lossen, introduceerden Microsoft-onderzoekers Policy Conformity Context Distillation (OPCD). De belangrijkste verschuiving in OPCD is dat het studenten modelleert die leren van hun eigen generatietrajecten en niet van een statische dataset (daarom wordt het “over beleid” genoemd). In plaats van passief de dataset van perfecte resultaten van een leraar te bestuderen, krijgen studenten opdrachten zonder naar een enorme instructie te kijken en moeten ze hun eigen antwoorden genereren.

Wanneer studenten hun antwoorden produceren, fungeert de docent als live-instructeur. Leraren hebben toegang tot volledig aangepaste aanwijzingen en evalueren de resultaten van studenten. Bij elke stap in het genereren van leerlingen vergelijkt het systeem de verdeling van leerlingtokens met wat een contextbewuste leraar zou doen.

beleidsgebaseerde contextdistillatie — Contextdestillatie volgens beleid

OPCD gebruikt “omgekeerde KL-divergentie” om studenten te beoordelen. “Door de omgekeerde KL-divergentie te minimaliseren, stimuleert het ‘fashion search’-gedrag. Het richt zich met grote waarschijnlijkheid op regio’s van de studentendistributie,” zei Ye. “Het onderdrukt signalen die de leerling onwaarschijnlijk acht, zelfs als de overtuigingen van de leraar deze een grote waarschijnlijkheid geven. Deze afstemming helpt de leerling zijn eigen fouten te corrigeren en de brede verspreiding van standaarddistillaties en hallucinaties te vermijden.”

Omdat leerlingmodellen actief oefenen met het nemen van hun eigen beslissingen en tijdens de training leren hun eigen fouten te corrigeren, gedragen ze zich betrouwbaarder wanneer ze worden ingezet in live-applicaties. Het registreert met succes complexe bedrijfsregels, veiligheidsbeperkingen of gespecialiseerde kennis rechtstreeks in het permanente geheugen.

Wat OPCD biedt: Benchmarkresultaten

De onderzoekers testten OPCD op twee hoofdgebieden: op ervaring gebaseerde kennisdestillatie en snelle systeemdestillatie. Om kennis op basis van ervaring te destilleren, wilden de onderzoekers kijken of LLM’s konden leren van hun successen uit het verleden en die lessen permanent konden overnemen. Ze testten het op modellen van verschillende groottes, waarbij ze gebruik maakten van wiskundige redeneerproblemen.

Ten eerste lost het model het probleem op en wordt gevraagd de algemene regels op te schrijven die uit het succes ervan zijn geleerd. Vervolgens voerden ze met behulp van OPCD de geschreven lessen rechtstreeks in de modelparameters in. De resultaten laten zien dat het model dramatisch verbetert zonder dat er verder geleerde ervaringen in de commando’s hoeven te worden opgenomen. Bij complexe wiskundige problemen verbeterde het model met 8 miljard parameters van een basislijn van 75,0% naar 80,9%. In het navigatiespel Frozen Lake had een klein parametermodel met 1,7 miljard aanvankelijk bijvoorbeeld een succespercentage van 6,3%. Nadat OPCD gebruik had gemaakt van de opgedane ervaring, steeg de nauwkeurigheid ervan naar 38,3%.

De tweede reeks experimenten werd uitgevoerd op lange systeemopdrachten. Bedrijven maken vaak gebruik van uitgebreide systemen om strikte gedragsrichtlijnen af te dwingen, zoals het handhaven van een professionele toon, het garanderen van medische nauwkeurigheid of het filteren van giftige taal. De onderzoekers testten of OPCD deze dichte gedragsregels permanent in het model kon opnemen, zodat ze niet bij elk gebruikersverzoek hoefden te worden meegestuurd. Uit hun experimenten blijkt dat OPCD deze complexe regels met succes internaliseert en de prestaties aanzienlijk verbetert. Bij het testen van het Llama-model met 3 miljard parameters voor de classificatie van veiligheid en toxiciteit behaalde het basismodel een score van 30,7%. Na het gebruik van OPCD om veiligheidsopdrachten te internaliseren, steeg de nauwkeurigheid naar 83,1%. Wat de antwoorden op medische vragen betreft, steeg hetzelfde model van 59,4% naar 76,3%.

Een van de belangrijkste uitdagingen bij het verbeteren van het model is heel erg vergetenwanneer het model te gefocust raakt op de verfijningstaak en slechter wordt op de algemene taak. De onderzoekers volgden de prestaties buiten de distributie om deze tunnelvisie te testen. Toen ze strikte veiligheidsvoorschriften in een model destilleerden, testten ze onmiddellijk het vermogen ervan om niet-gerelateerde medische vragen te beantwoorden. OPCD handhaafde met succes de algemene medische kennis van het model en presteerde ongeveer 4 procentpunten beter dan de oude buiten-beleidsmethode. Hij specialiseerde zich zonder zijn bredere intelligentie te verliezen.

Waar OPCD past – en waar niet

Hoewel OPCD een krachtig hulpmiddel is voor het internaliseren van statische kennis en complexe regels, vervangt het niet alle externe contextmethoden. “RAG is beter wanneer de vereiste informatie zeer dynamisch is of een grote, regelmatig bijgewerkte externe database betreft die niet kan worden gecomprimeerd tot modelgewichten”, aldus Ye.

Voor bedrijfsteams die hun pijplijnen evalueren, vereist de adoptie van OPCD geen revisie van bestaande systemen of investeringen in gespecialiseerde hardware. “OPCD kan met minimale wrijving in bestaande workflows worden geïntegreerd”, aldus Ye. “Elk team dat al een standaard RLVR-pijplijn (Reinforcement Learning from Verified Rewards) beheert, kan OPCD adopteren zonder grote architectonische veranderingen.”

In de praktijk fungeert het studentenmodel als het beleidsmodel dat de uitrol uitvoert, terwijl het bevroren lerarenmodel als referentie dient en de logit levert. Hardwarevereisten zijn zeer toegankelijk. Volgens Ye kon het team van het bedrijf de experimenten van de onderzoekers reproduceren met behulp van ongeveer acht A100 GPU’s.

De gegevensvereisten zijn ook licht. Voor de destillatie van ervaringskennis hebben ontwikkelaars slechts ongeveer 30 zaadvoorbeelden nodig om een oplossingsvoetafdruk te genereren. Omdat deze techniek wordt toegepast op een voorheen niet-geoptimaliseerde omgeving, zal zelfs een kleine hoeveelheid gegevens resulteren in een groot deel van de prestatieverbetering. Voor de destillatie van systeemprompts zijn geoptimaliseerde prompts en bestaande standaardtaakgegevenssets voldoende.

De onderzoekers bouwden hun eigen implementatie is verlorende RLVR-codebase is open source, wat bewijst dat de techniek goed past bij conventionele raamwerken voor versterkend leren. Ze zijn van plan de implementatie na interne beoordeling vrij te geven als open source.

Zelfontwikkelingsmodellen: wat gebeurt er daarna

Vooruitkijkend maakt OPCD de weg vrij voor werkelijk evoluerende modellen die zich blijven aanpassen aan op maat gemaakte bedrijfsomgevingen. Eenmaal geïmplementeerd kan het model lessen trekken uit interacties in de echte wereld en OPCD gebruiken om deze kenmerken geleidelijk te internaliseren zonder dat handmatige supervisie of gegevensannotatie door de modeltrainer nodig is.

“Dit vertegenwoordigt een fundamentele paradigmaverschuiving in modelverbetering: verbeteringen in het kernmodel zullen zich verplaatsen van trainingstijd naar testtijd”, zei Ye. “Het gebruik van dit model – en het laten opdoen van ervaring – zal een belangrijke motor zijn voor de vooruitgang ervan.”

Nieuwsbron

De nieuwe AI-trainingsmethode van Microsoft elimineert opgeblazen systeemopdrachten zonder dat dit ten koste gaat van de modelprestaties

Waarom lange systeemopdrachten een risico zijn

Hoe OPCD problemen tussen leraar en leerling oplost

Wat OPCD biedt: Benchmarkresultaten

Waar OPCD past – en waar niet

Zelfontwikkelingsmodellen: wat gebeurt er daarna

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

John Cena’s laatste WWE-wedstrijd — Stream GRATIS op YouTube

Alex Warren beschrijft moedersverslaving, gefilmd op Jay Shetty

Interview met Nathan Broadhead: Terugkeer naar Wrexham, zijn transfersom en terugkeerdoelen in de Premier...

Carl Froch verdubbelt de KO-voorspelling van Wardley vs Dubois: “Hij is niet op dit...