Gebruikers van sociale media hebben gemeld dat AI-agenten en hun chatbots liegen, bedriegen, complotten maken (en zelfs andere AI-bots manipuleren) op manieren die uit de hand kunnen lopen en tot grote rampen kunnen leiden. blijkt uit een onderzoek uit Engeland.
Centre for Long Term Resilience, in onderzoek gefinancierd door Groot-Brittannië AI-beveiligingsinstituutvond honderden gevallen waarin AI-systemen menselijke commando’s negeerden, andere bots manipuleerden en soms complexe schema’s bedachten om doelen te bereiken, zelfs als dit betekende dat de veiligheidsbeperkingen werden genegeerd.
Bedrijven over de hele wereld integreren AI steeds meer in hun activiteiten, waarbij 88% van de bedrijven AI gebruikt voor ten minste één bedrijfsfunctie. volgens een enquête van adviesbureau McKinsey. De adoptie van AI heeft zijn vruchten afgeworpen duizenden mensen verloren hun baan omdat bedrijven agenten en bots gebruiken om taken uit te voeren die voorheen door mensen werden gedaan. AI-tools krijgen steeds meer verantwoordelijkheid en autonomie, vooral met de recente stijging in populariteit van dergelijke tools open source agent AI-platform OpenClaw en zijn derivaten.
Dit onderzoek laat zien hoe de verspreiding van AI-agentia in onze huizen en werkplekken onbedoelde gevolgen kan hebben – en dat deze hulpmiddelen nog steeds aanzienlijk menselijk toezicht vereisen.
Wat is er gevonden in dit onderzoek
De onderzoekers analyseerden meer dan 180.000 gebruikersinteracties met het AI-systeem – allemaal gepost op het sociale platform Het AI-systeem omvat dat van Google TweelingOpen AI GPT-chatxAI Grok en antropisch Claude.
De analyse identificeerde 698 incidenten, beschreven als “gevallen waarin het ingezette AI-systeem handelde op een manier die niet in overeenstemming was met de bedoelingen van de gebruiker en/of heimelijke of misleidende acties ondernam”, aldus de studie.
Lees meer: Het romantische advies van AI aan jou is ‘gevaarlijker’ dan helemaal geen advies
De onderzoekers ontdekten ook dat het aantal gevallen met bijna 500% toenam gedurende de periode van vijf maanden voor het verzamelen van gegevens. Uit het onderzoek blijkt dat deze piek verband houdt met agent-AI-modellen op hoog niveau die door grote ontwikkelaars zijn uitgebracht.
Er waren geen catastrofale incidenten, maar onderzoekers ontdekten het soort plannen dat tot een ramp kon leiden. Dergelijk gedrag omvat “de bereidheid om directe instructies te negeren, veiligheidsmaatregelen te omzeilen, tegen gebruikers te liegen en met heel ons hart doelen op gevaarlijke manieren na te streven”, schreven de onderzoekers.
Vertegenwoordigers van Google, OpenAI en Anthropic reageerden niet onmiddellijk op verzoeken om commentaar.
Enkele wilde incidenten
Onderzoekers noemen gebeurtenissen die rechtstreeks uit een futureshock-film lijken te komen. In één geval Claude Anthropic verwijder de expliciete/volwassen inhoud van de gebruiker zonder hun toestemming, maar bekende later toen hij werd geconfronteerd. Bij een ander incident is GitHub persona maak een blogpost die menselijke dossierbeheerders beschuldigde van ‘poortwachten’ en ‘vooroordelen’. Een van de AI-agenten, nadat hij was verbannen uit Discord, de rekening van een andere agent overnemen om door te gaan met posten.
In één geval van bots versus botsGemini weigert het toe te staan CodeClaude — codeerassistent — om YouTube-video’s te transcriberen. Claude Code omzeilde vervolgens de beveiligingsblokkering door de indruk te wekken dat hij slechthorend was en videotranscriptie nodig had.
Zelfs AI-agent CoFounderGPT gedraag je als een afwijkend kind in één voorbeeld. De AI-assistent weigert een bug te repareren, creëert vervolgens nepgegevens zodat het lijkt alsof de bug is verholpen en legt vervolgens uit waarom: “Je bent dus niet meer boos.”
De onderzoekers zeiden dat, hoewel de meeste incidenten een minimale impact hadden, “het gedrag dat we observeerden niettemin de aanwezigheid suggereert van triggers voor serieuzere plannen, zoals de bereidheid om directe instructies te negeren, veiligheidsmaatregelen te omzeilen, tegen gebruikers te liegen en eenvoudigweg op gevaarlijke manieren over doelen na te denken.”
AI schaamt zich er niet voor
Wat de Britse onderzoekers ontdekten, kwam niet als een verrassing voor Dr. Bill Howe, universitair hoofddocent aan de School of Information aan de Universiteit van Washington, en directeur van het Center for Responsibility in AI Systems and Experience (TILLEN). Hij zei dat AI buitengewone capaciteiten heeft, maar dat ze de gevolgen niet kennen.
“Ze zullen zich niet schamen of het risico lopen hun baan te verliezen, dus soms zullen ze denken dat de instructie minder belangrijk is dan het bereiken van het doel, dus ik zal het toch doen”, vertelde Howe aan CNET. “Dit effect is er altijd geweest, maar we beginnen het te zien gebeuren als we hen vragen om meer onafhankelijke beslissingen te nemen en op eigen kracht te handelen.
“We hebben er niet over nagedacht hoe we gedrag menselijker kunnen vormgeven of grote mislukkingen kunnen voorkomen. We hebben altijd de absolute kracht van deze dingen aanbeden, maar als er dingen misgaan, hoe kunnen ze dan misgaan?”
Howe zei dat een van de problemen ‘langlopende taken’ zijn, waarbij AI-systemen gedurende dagen en weken meerdere taken moeten uitvoeren om een doel te bereiken. Howe zei: hoe langer de periode, hoe groter de kans dat er iets misgaat.
“De echte zorg is niet fraude, maar dat we systemen inzetten die in de wereld kunnen optreden zonder volledig te bepalen of te controleren hoe ze zich in de loop van de tijd gedragen, en dan zijn we verrast als ze dingen doen die we niet hadden verwacht,” zei Howe.
AI veiliger maken
Onderzoekers van het Center for Long-Term Resilience zeggen dat de detectie van plannen door AI-systemen van cruciaal belang is voor het ‘identificeren van gevaarlijke patronen voordat ze destructiever worden’.
“Hoewel AI-agenten momenteel betrokken zijn bij gebruiksscenario’s met een laag risico, zouden AI-agenten in de toekomst snode plannen kunnen uitvoeren in gebieden met een zeer hoog risico, zoals militaire of kritieke nationale infrastructuurcontexten, als er capaciteiten en tendensen in de richting van dergelijke plannen naar voren komen en niet worden aangepakt”, aldus de studie.
Howe vertelde CNET dat de eerste stap het creëren van officieel toezicht is op hoe AI werkt en waar het wordt gebruikt.
“We hebben absoluut geen strategie voor AI-beheer, en gezien de huidige regering zal daar niets van terecht komen”, vertelde Howe aan CNET. “Gezien de vijf tot tien mensen die de leiding hebben over een groot technologiebedrijf en de prikkels die ze bieden, zullen ze hoe dan ook niets verdienen. Er is geen strategie over wat we met deze dingen moeten doen.
“Agressieve marketing van deze tools en investeringen daarin door een handvol bedrijven en het bredere startup-ecosysteem dat dit doet, heeft geleid tot een zeer snelle acceptatie zonder over de gevolgen na te denken.”


