OpenAI onderzoekers zijn experimenteren met nieuwe benaderingen aan het ontwerpen van neurale netwerken, met als doel AI-modellen gemakkelijker te begrijpen, te debuggen en te beheren. Schaarse modellen kunnen bedrijven een beter inzicht geven in de manier waarop deze modellen beslissingen nemen.
Het is belangrijk om te begrijpen hoe het model reageert verkoopargument van het redeneermodel voor bedrijven, kan organisaties een zekere mate van vertrouwen bieden als ze zich tot AI-modellen wenden voor inzichten.
Deze methode vereist dat wetenschappers en onderzoekers van OpenAI modellen bekijken en evalueren, niet door de prestaties na de training te analyseren, maar door interpreteerbaarheid of begrip toe te voegen via schaarse circuits.
OpenAI merkt op dat een groot deel van de vaagheid van AI-modellen voortkomt uit de manier waarop de meeste modellen zijn ontworpen, dus om een beter inzicht te krijgen in het gedrag van het model moesten ze een oplossing bedenken.
“Neurale netwerken vormen de drijvende kracht achter de krachtigste AI-systemen van vandaag, maar ze zijn nog steeds moeilijk te begrijpen”, schreef OpenAI in een blogpost. “We schrijven deze modellen niet met expliciete stapsgewijze instructies. In plaats daarvan leren ze door miljarden interne verbindingen of gewichten aan te passen totdat ze een taak onder de knie hebben. We ontwerpen de trainingsregels, maar niet het specifieke gedrag dat naar voren komt, en het resultaat is een dicht netwerk van verbindingen dat mensen niet gemakkelijk kunnen ontcijferen.”
Om de interpretatie van mengsels te verbeteren, test OpenAI architecturen die neurale netwerken trainen die minder verward zijn, waardoor ze gemakkelijker te begrijpen zijn. Het team trainde een taalmodel met een vergelijkbare architectuur als bestaande modellen, zoals GPT-2, met behulp van hetzelfde trainingsschema.
Het resultaat: een betere interpretatie.
De weg naar interpreteerbaarheid
Begrijpen hoe modellen werken, waardoor we inzicht krijgen in hoe ze beslissingen nemen, is belangrijk omdat dit echte impact heeft, zegt OpenAI.
Het bedrijf definieert interpreteerbaarheid als “een methode die ons helpt begrijpen waarom een model een bepaalde output oplevert.” Er zijn verschillende manieren om interpreteerbaarheid te bereiken: chain-of-mind-interpretatie, die vaak wordt uitgebuit door redeneermodellen, en mechanistische interpretatie, waarbij de wiskundige structuur van het model wordt omgekeerd.
OpenAI is gericht op het verbeteren van de mechanistische interpretatie, die volgens het bedrijf “tot nu toe minder nuttig is, maar in principe een completere verklaring kan bieden voor modelgedrag.”
“Door te proberen het gedrag van een model op het meest gedetailleerde niveau te verklaren, kunnen mechanistische interpretaties minder aannames doen en ons meer vertrouwen geven. Maar het pad van details op laag niveau naar verklaringen van complex gedrag is veel langer en moeilijker”, aldus OpenAI.
Een betere interpretatie maakt betere monitoring mogelijk en geeft vroegtijdige waarschuwingssignalen als modelgedrag niet langer in lijn is met beleid.
OpenAI merkt op dat het verbeteren van de mechanistische interpreteerbaarheid “een zeer ambitieuze onderneming is”, maar onderzoek naar schaarse netwerken heeft dit verbeterd.
Hoe een model te ontleden
Om de chaos van verbindingen die door een model worden gecreëerd, aan te pakken, verbreekt OpenAI eerst de meeste van deze verbindingen. Omdat transformatormodellen zoals GPT-2 duizenden aansluitingen hebben, moest het team deze circuits ‘deblokkeren’. Ze praten allemaal alleen met geselecteerde nummers, waardoor de verbinding regelmatiger wordt.
Vervolgens voerde het team ‘circuit tracing’ uit op de taken om interpreteerbare circuitgroeperingen te creëren. De laatste taak bestaat uit het snoeien van het model “om het kleinste circuit te verkrijgen dat het doelverlies op de doelverdeling bereikt”, volgens Open AI. Het streeft naar een verlies van 0,15 om de knooppunten en gewichten te isoleren die verantwoordelijk zijn voor het gedrag.
“We laten zien dat het snoeien van een lichtgewicht model bij onze taak ongeveer 16 maal kleinere circuits oplevert dan het snoeien van een compact model met vergelijkbaar pre-trainingsverlies. We kunnen ook willekeurig nauwkeurige circuits creëren ten koste van meer randen. Dit laat zien dat circuits voor eenvoudig gedrag aanzienlijk beter ontleedbaar en lokaliseerbaar zijn in spaarzaam gewogen modellen vergeleken met dichte modellen”, aldus het rapport.
Kleine modellen worden gemakkelijker te trainen
Hoewel OpenAI erin is geslaagd een schaars model te creëren dat gemakkelijker te begrijpen is, is het nog steeds veel kleiner dan de meeste basismodellen die door bedrijven worden gebruikt. Bedrijf steeds vaker gebruik van kleine modellenmaar het grensmodel, zo vlaggenschip GPT-5.1nog steeds baat zou hebben bij een betere interpretatie.
Andere modelontwikkelaars willen ook begrijpen hoe hun AI-modellen denken. Antropischdat is gebeurd interpretatie onderzoeken al een tijdje werd het onlangs onthuld dat hij Claude’s hersenen had “gehackt”. – en Claude merkte het op. Meta probeert ook te achterhalen hoe het redeneermodel werkt hun beslissing nemen.
Naarmate meer bedrijven zich tot AI-modellen wenden om cruciale beslissingen te nemen voor hun bedrijf, en uiteindelijk voor klanten, zal onderzoek om te begrijpen hoe modellen denken de duidelijkheid bieden die veel organisaties nodig hebben om modellen meer te vertrouwen.

