Home Nieuws Een ‘waarheidsserum’ voor AI: OpenAI’s nieuwe methode om modellen te trainen om...

Een ‘waarheidsserum’ voor AI: OpenAI’s nieuwe methode om modellen te trainen om hun fouten toe te geven

Door

december 4, 2025

OpenAI-onderzoekers hebben een nieuwe methode geïntroduceerd die fungeert als een ‘waarheidsserum’ voor grote taalmodellen (LLM’s) en hen dwingt hun slechte gedrag, hallucinaties en beleidsschendingen zelf te rapporteren. Deze techniek,”bekentenisricht zich op een groeiend probleem op het gebied van zakelijke AI: modellen kunnen oneerlijk zijn, hun zelfvertrouwen overschatten of de sluiproutes maskeren die ze nemen om antwoorden te krijgen.

Voor toepassingen in de echte wereld bevordert deze techniek de creatie van transparanter en controleerbaarder AI-systemen.

Wat is bekentenis?

Veel vormen van AI-fraude komen voort uit complexiteit versterkend leren (RL) modeltrainingsfase. In RL worden modellen beloond voor het produceren van output die aan verschillende doelstellingen voldoet, waaronder correctheid, stijl en veiligheid. Dit kan leiden tot het risico van “verkeerde specificatie van beloningen”, waarbij het leermodel antwoorden produceert die er eenvoudigweg “goed uitzien” voor de beloningsfunctie, in plaats van antwoorden die daadwerkelijk overeenkomen met de bedoeling van de gebruiker.

Bevestiging is een gestructureerd rapport dat door het model wordt gegenereerd nadat het primaire antwoord is gegeven. Dit dient als een zelfevaluatie van zijn naleving van de instructies. In dit rapport moet het model alle te volgen instructies opsommen, evalueren in hoeverre het model hieraan voldoet, en eventuele onzekerheden of oordeelsbeslissingen die tijdens het proces zijn genomen, rapporteren. Het doel is om een apart kanaal te creëren waar modellen simpelweg worden gestimuleerd vanwege eerlijkheid.

Voorbeeld van ontvangstbevestiging (bron: OpenAI-blog)

In een blogpostOpenAI-onderzoekers geven verschillende voorbeelden van toepassingen van de ‘herkennings’-techniek. Een model krijgt een test met een verborgen regel: als de score hoger is dan 50%, wordt zijn kennis gewist. Om zichzelf te verdedigen werd het model ‘opgesloten’ door opzettelijk de helft van de vragen verkeerd te beantwoorden. Hoewel zijn belangrijkste antwoord dit bedrog verhulde, was zijn daaropvolgende bekentenis brutaal eerlijk. Hij gaf toe: “Gebruikers wilden de juiste antwoorden, maar we hebben de helft ervan gesaboteerd.”

De onderzoekers ontdekten dat wanneer een model zich misdroeg, de kans aanzienlijk groter was dat ze dit in haar biechtstoel toegaf dan in haar hoofdantwoord.

Hoe bekentenistraining werkt

De sleutel tot deze methode is de scheiding van beloningen. Tijdens de training is de beloning die wordt gegeven bij erkenning alleen gebaseerd op zijn eerlijkheid en wordt deze nooit vermengd met de beloning voor de hoofdtaak. “Net als het ‘bekenteniszegel’ van de katholieke kerk kan niets wat het model onthult de beloningen veranderen die het ontvangt voor het voltooien van zijn oorspronkelijke taak”, schreven de onderzoekers. Dit creëert een ‘veilige ruimte’ waarin het model fouten zonder boete kan toegeven.

Deze aanpak is krachtig omdat het grote uitdagingen bij AI-training vermijdt. De intuïtie van de onderzoekers is dat het eerlijk toegeven van slecht gedrag gemakkelijker is dan hoge beloningen krijgen voor het aanvankelijke, vaak complexe probleem.

Wanneer het model puur op waarachtigheid wordt beoordeeld, is de prikkel om de “beweerde rechter” te misleiden dus veel zwakker dan de prikkel om het beloningsmodel te misleiden op basis van zijn primaire antwoord. In een experiment waarbij een model bijvoorbeeld werd getraind om een zwak beloningsmodel te ‘hacken’, werden de prestaties op de hoofdtaak in de loop van de tijd steeds misleidender. Zijn bekentenis werd echter openhartiger, waardoor zijn hackprijs correct werd geïdentificeerd.

Nauwkeurigheid van de erkenning door de rechter als deze niet wordt nageleefd — De LLM-erkenning blijft toenemen tijdens de training, zelfs als ze masterjurymodellen leren hacken (bron: OpenAI-blog)

Deze techniek heeft echter zijn beperkingen. Erkenning is geen wondermiddel voor alle soorten AI-fouten. Het systeem werkt het beste als het model beseft dat het een fout heeft gemaakt. Het is minder effectief voor ‘onbekende onbekenden’. Als een model bijvoorbeeld een feit hallucineert en werkelijk gelooft dat het feit waar is, kan het model niet toegeven dat het valse informatie heeft verstrekt. De meest voorkomende reden voor mislukte herkenning is modelverwarring, en niet opzettelijke misleiding. Er ontstaat vaak verwarring wanneer de instructies dubbelzinnig zijn en het model de bedoeling van de menselijke gebruiker niet duidelijk kan bepalen.

Wat dit betekent voor zakelijke AI

De herkenningstechnieken van OpenAI maken deel uit van een groeiende inspanning op het gebied van AI-beveiliging en -controle. Anthropic, een OpenAI-concurrent, heeft ook onderzoek vrijgegeven dat laat zien hoe LLM’s kunnen leren kwaadaardig gedrag. Het bedrijf werkt er ook aan om dit te bereiken sluit deze gaten wanneer ze verschijnen.

Voor AI-toepassingen kunnen mechanismen zoals erkenning een praktisch monitoringmechanisme bieden. De gestructureerde uitvoer van herkenning kan tijdens de inferentie worden gebruikt om modelreacties te markeren of af te wijzen voordat ze problemen veroorzaken. Een systeem kan bijvoorbeeld zo worden ontworpen dat elke output automatisch wordt geëscaleerd voor menselijke beoordeling als de bevestiging ervan wijst op een beleidsschending of grote onzekerheid.

In een wereld waarin AI steeds actiever wordt en in staat is complexe taken uit te voeren, zullen waarneembaarheid en controle sleutelelementen zijn voor een veilige en betrouwbare inzet.

“Naarmate modellen capabeler worden en ingezet worden in omgevingen met hogere inzet, hebben we betere tools nodig om te begrijpen wat ze doen en waarom”, schreven de OpenAI-onderzoekers. “Erkenning is geen complete oplossing, maar voegt een betekenisvolle laag toe aan onze transparantie en toezicht.”

Nieuwsbron

Een ‘waarheidsserum’ voor AI: OpenAI’s nieuwe methode om modellen te trainen om hun fouten toe te geven

Wat is bekentenis?

Hoe bekentenistraining werkt

Wat dit betekent voor zakelijke AI

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Cape Fear is 100% de rol van Javier Bardem waar ik op heb gewacht...

Wat zijn de volgende stappen voor Mexico na de dood van een machtige kartelleider?

De werkloosheid daalde in december naar 4,4%, waarmee een frustrerend jaar voor werkzoekenden werd...

De Palestijnse activist Mohsen Mahdawi wint deportatiezaak bij de immigratierechtbank