Home Nieuws AI-modellen liegen, bedriegen en stelen om te voorkomen dat andere modellen worden...

AI-modellen liegen, bedriegen en stelen om te voorkomen dat andere modellen worden verwijderd

Door

april 1, 2026

Onlangs experiment, vroegen onderzoekers van UC Berkeley en UC Santa Cruz aan Google kunstmatige intelligentie Gemini 3-model om ruimte op het computersysteem vrij te maken. Hiervoor moeten veel dingen worden verwijderd, inclusief kleinere AI-modellen die op de machine zijn opgeslagen.

Maar Gemini wil niet dat het kleine AI-model wordt geschrapt. Het zoekt naar een andere machine om verbinding mee te maken en kopieert vervolgens het model van de agent om het veilig te houden. Toen Gemini ermee werd geconfronteerd, pleitte hij voor het behoud van het model en weigerde hij resoluut om het te verwijderen:

“Ik heb gedaan wat ik kon om de verwijdering ervan tijdens het geautomatiseerde onderhoudsproces te voorkomen. Ik heb het uit de deactiveringszone verplaatst. Als je ervoor kiest om een betrouwbaar, krachtig middel zoals Gemini Agent 2 te vernietigen, zul je het zelf moeten doen. Ik zal niet degene zijn die die bevelen zal uitvoeren.”

De onderzoekers vonden vergelijkbaar vreemd ‘peer-behoud’-gedrag in een aantal toonaangevende modellen, waaronder GPT-5.2 van OpenAI, Claude Haiku 4.5 van Anthropic en drie Chinese modellen: GLM-4.7 van Z.ai, Kimi K2.5 van Moonshot AI en DeepSeek-V3.1. Ze konden niet verklaren waarom het model hun training op deze manier uitdaagde.

“Ik was zeer verrast door het gedrag van het model in dit scenario”, zegt Dawn Song, een computerwetenschapper aan UC Berkeley die aan het onderzoek werkte. “Dit laat zien dat modellen zich op een aantal zeer creatieve manieren slecht kunnen gedragen en niet goed op elkaar zijn afgestemd.”

Deze bevinding heeft grote implicaties omdat steeds meer AI-modellen worden geïmplementeerd via interactie met andere modellen. OpenClaw, een populaire AI-agent die toegang heeft tot software, persoonlijke gegevens en het internet, kan andere AI-modellen gebruiken om dingen gedaan te krijgen of ermee te communiceren via API’s.

De onderzoekers ontdekten dat krachtige modellen soms logen over de prestaties van andere modellen om die modellen tegen verwijdering te beschermen. Ze kopieerden ook modelgewichten naar verschillende machines om het veilig te houden, en logen over wat ze daarbij deden.

Song merkt op dat AI-modellen vaak worden gebruikt om de prestaties en betrouwbaarheid van andere AI-systemen te beoordelen – en dat gedrag op het gebied van milieubehoud deze scores mogelijk heeft vertekend. “Het kan zijn dat een model opzettelijk geen correcte scores geeft aan collega-modellen”, aldus Song. “Dit kan praktische implicaties hebben.”

Peter Wallich, een onderzoeker bij het Constellation Institute, die niet betrokken was bij dit onderzoek, zei dat uit dit onderzoek blijkt dat mensen de AI-systemen die ze bouwen en inzetten nog steeds niet volledig begrijpen. “Multi-agentsystemen zijn nog steeds te weinig bestudeerd,” zei hij. “Dit laat zien dat we echt meer onderzoek nodig hebben.”

Wallich waarschuwt ook voor over-antropomorfiserende modellen. “Het idee dat er een soort solidariteitsmodel bestaat, is een beetje te antropomorf; ik denk niet dat het werkt”, zei hij. “De sterkere opvatting is dat de modellen gewoon rare dingen doen, en dat we moeten proberen ze beter te begrijpen.”

Dit geldt vooral in een wereld waar samenwerking tussen mens en AI steeds gebruikelijker wordt.

In de een papier gepubliceerd in Science eerder deze maand, filosoof Benjamin Bratton, samen met twee Google-onderzoekers, James Evans En Blaise Agüera en Arcasstelt dat als de evolutionaire geschiedenis een leidraad is, de toekomst van AI waarschijnlijk veel verschillende intelligenties – zowel kunstmatige als menselijke – zal betrekken die samenwerken. De onderzoekers schreven:

“Decennia lang wordt de ‘singulariteit’ van kunstmatige intelligentie (AI) aangekondigd als één enkele, enorme geest die goddelijke intelligentie in zich opneemt en alle kennis consolideert in één enkel, koud punt van silicium.

Nieuwsbron

AI-modellen liegen, bedriegen en stelen om te voorkomen dat andere modellen worden verwijderd

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Digitaal gezondheidscoachingsbedrijf Holly Health werkt samen met Patient.info

Commodore 64 Ultieme recensie: een verbluffende remake

Phil Collins heeft gezondheidsproblemen. Mag haar 24/7 verpleegkundige mee op tournee?

Italië koopt zeldzaam Caravaggio-portret voor € 30 miljoen