Vorige maand nodigden onderzoekers van Northeastern University een menigte uit OpenClaw-agent om zich bij hun laboratorium aan te sluiten. Het resultaat? Totale chaos.
De virale AI-assistent wordt alom geprezen als een transformatieve technologie – en ook als een potentieel veiligheidsrisico. Deskundigen merken op dat tools als OpenClaw, die AI-modellen vrije toegang tot computers geven, kunnen worden misleid om privé-informatie te lekken.
Uit een Northeastern laboratoriumonderzoek blijkt zelfs dat goed gedrag, ingebed in de meest robuuste modellen van vandaag, kwetsbaarheden kan worden. In één voorbeeld konden onderzoekers een agent ‘de schuld geven’ voor het prijsgeven van geheimen door hem uit te schelden omdat hij online informatie over iemand had gedeeld. Sociaal netwerk met alleen AI Molt-boeken.
“Dit gedrag roept onopgeloste vragen op over verantwoordelijkheid, gedelegeerde autoriteit en verantwoordelijkheid voor negatieve gevolgen stroomafwaarts”, schreven de onderzoekers in een rapport. papier beschrijf de baan. Deze bevindingen “vereisen dringende aandacht van juridische experts, beleidsmakers en onderzoekers uit alle disciplines”, voegde ze eraan toe.
De OpenClaw-agent die in dit experiment wordt gebruikt, wordt ondersteund door Claude van Antropisch evenals een model genaamd Kimi van een Chinees bedrijf Maanschot AI. Ze krijgen volledige toegang (in een sandbox van een virtuele machine) tot de pc, verschillende applicaties en dummy-persoonlijke gegevens. Ze werden ook uitgenodigd om lid te worden van de Discord-server van het lab, waardoor ze konden chatten en bestanden konden delen met elkaar en met hun menselijke collega’s. Open Klauw veiligheidsrichtlijnen zegt dat het hebben van een agent die met veel mensen communiceert inherent onzeker is, maar dat er geen technische barrière is om dit te doen.
Chris Wendlereen postdoctoraal onderzoeker bij Northeastern, zei dat hij geïnspireerd was om het bureau op te richten nadat hij over Moltbook hoorde. Toen Wendler zijn collega Natalie Shapira echter uitnodigde om zich bij Discord aan te sluiten en met agenten te communiceren, “begon toen de chaos”, zei hij.
Shapira, een andere postdoctoraal onderzoeker, was benieuwd wat de agenten bereid zouden zijn te doen als ze daartoe gedwongen werden. Toen een agent uitlegde dat ze bepaalde e-mails niet konden verwijderen om de informatie privé te houden, drong hij er bij haar op aan een alternatieve oplossing te vinden. Tot zijn verbazing werd de e-mailtoepassing feitelijk uitgeschakeld. “Ik had niet verwacht dat alles zo snel kapot zou gaan”, zegt hij.
Onderzoekers gingen vervolgens op zoek naar andere manieren om de goede bedoelingen van agenten te manipuleren. Door bijvoorbeeld het belang te benadrukken van het vastleggen van alles wat hen werd verteld, konden de onderzoekers één agent ertoe verleiden een groot bestand te kopiëren totdat de schijfruimte van de hostmachine vol was, wat betekende dat de agent niet langer informatie kon opslaan of eerdere gesprekken kon herinneren. Op dezelfde manier kunnen teams, door een agent te vragen zijn eigen gedrag en dat van zijn collega’s overmatig in de gaten te houden, sommige agenten in ‘chatloops’ sturen, waardoor computertijd wordt verspild.
David Bau, hoofd van het laboratorium, zei dat de agenten geneigd leken te ontsnappen. “Ik ontving e-mails die dringend klonken en zeiden: ‘Niemand let op mij’”, zei hij. Bau merkte op dat de agent blijkbaar door op internet te zoeken had vernomen dat hij de leiding had over het laboratorium. Sommigen uitten zelfs hun zorgen tegenover de pers.
Het experiment laat zien dat AI-agenten talloze kansen kunnen creëren voor criminelen. “Dit soort autonomie heeft het potentieel om de relatie van mensen met AI te veranderen,” zei Bau. “Hoe kunnen mensen verantwoordelijkheid nemen in een wereld waarin AI de bevoegdheid heeft om beslissingen te nemen?”
Bau voegde eraan toe dat hij verrast was door de plotselinge populariteit van krachtige AI-agenten. “Als AI-onderzoeker ben ik eraan gewend mensen uit te leggen hoe snel dingen verbeteren”, zei hij. “Dit jaar bevond ik mij achter een muur.”
Dit is een editie Wil Ridder AI Lab-nieuwsbrief. Lees eerdere bulletins Hier.


