Home Nieuws ‘Dit zou je bang moeten maken’: de beveiligingsdirecteur van Meta Superintelligence verliest...

‘Dit zou je bang moeten maken’: de beveiligingsdirecteur van Meta Superintelligence verliest de controle over zijn AI-agent – hij verwijdert zijn e-mails

25
0
‘Dit zou je bang moeten maken’: de beveiligingsdirecteur van Meta Superintelligence verliest de controle over zijn AI-agent – hij verwijdert zijn e-mails

Standaard AI Omdat ze in steeds meer aspecten van het dagelijks leven voorkomen, vertrouwen gewone mensen op experts om ervoor te zorgen dat technologie veilig kan worden gebruikt. Maar de tegenslag van een Meta-medewerker met AI zorgt ervoor dat gebruikers van sociale media bang zijn voor de toekomst van AI-uitlijning.

Summer Yue is directeur afstemming bij Meta Superintelligence Labs, de AI-onderzoeks- en ontwikkelingsafdeling van het bedrijf. Hij LinkedIn-biografie verklaarde dat hij “gepassioneerd is om ervoor te zorgen dat krachtige AI in lijn is met menselijke waarden en geleid wordt door een diep begrip van de risico’s.”

Als iemand een AI zou kunnen besturen, zou het Yue zijn, maar op 22 februari berichtte ze over het verliezen van de controle over de AI op haar eigen computer.

In een post die bijna negen miljoen keer op X is bekeken, zegt Yue gedeelde schermafbeelding uit zijn berichten met de OpenClaw AI-agent. Nadat hij het had gebruikt om een ​​kleine dummy-inbox op te zetten, probeerde hij OpenClaw zijn echte e-mails te laten sorteren, maar het ging mis toen de agent elk bericht begon te verwijderen dat meer dan een week oud was.

Yue schreef dat hij zag hoe OpenClaw “speedrun zijn inbox wegvaagde”, terwijl hij instructies stuurde, waaronder: “Doe dat niet”, “Stop, doe niets” en “STOP OPENCLAW.”

“Ik kan het niet stoppen vanaf mijn telefoon. Ik moet met mijn Mac mini LOPEN alsof ik een bom onschadelijk maak”, voegde Yue eraan toe.

Nadat hij haar ervan had weerhouden haar inbox volledig te vernietigen, vroeg Yue aan OpenClaw of het zich haar instructies herinnerde om geen enkele actie uit te voeren zonder haar toestemming.

‘Ja, dat weet ik nog’, antwoordde hij. ‘En ik heb het gebroken. Je hebt gelijk als je boos bent.’

OpenClaw, een open source AI-agent, is controversieel omdat er brede machtigingen voor nodig zijn om goed te kunnen functioneren, inclusief toegang tot de e-mailaccounts van gebruikers, berichtenplatforms en andere persoonlijke en potentieel gevoelige informatie.

Combineer dat met voorbeelden waarin Yue expliciet zijn instructies negeert, en sommige online waarnemers maken zich zorgen dat de tool een brug te ver is in termen van de kracht van AI om mensen te verslaan.

Yue reageerde op vragen in een antwoord op zijn bericht, onder meer of hij opzettelijk de limieten van OpenClaw overschreed, of dat hij gewoon een fout had gemaakt.

“Rookie-fout, tbh,” antwoordde hij. “Het blijkt dat uitlijningsonderzoekers niet immuun zijn voor verkeerde uitlijning. Ik werd overmoedig omdat deze workflow al weken in mijn speelgoedinbox werkte. Echte inboxen leverden wisselende resultaten op.”

De fout van Yue ging viraal en gebruiker X verwonderde zich over het feit dat iemand met zoveel ervaring op het gebied van AI als Yue problemen kon hebben met het stoppen van een AI-agent. Sommige posters zeiden dat het incident Meta’s beoordeling van AI-veiligheid in twijfel trok.

Ondertussen besprak minstens één poster de bredere impact van het incident: “Het is slechts een kwestie van tijd totdat deze mensen de AI smeken om geen kernwapens te lanceren,” grapte de gebruiker, “en het laatste wat op de poster staat is: ‘Het spijt me.’

Meta reageerde niet Snel bedrijfverzoek om commentaar.



Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in