Home Nieuws Anthropic zegt dat zijn nieuwste AI-model te krachtig is om uit te...

Anthropic zegt dat zijn nieuwste AI-model te krachtig is om uit te brengen

4
0
Anthropic zegt dat zijn nieuwste AI-model te krachtig is om uit te brengen

Anthropic zei dinsdag dat het de bredere uitrol van zijn nieuwste AI-model, Mythos, had stopgezet vanwege zorgen dat het model te goed was in het vinden van ‘kwetsbaarheden op hoog niveau’ in grote besturingssystemen en webbrowsers.

“De grote verbeteringen aan de mogelijkheden van Claude Mythos Preview hebben ons ertoe gebracht om het niet algemeen beschikbaar te maken”, schreef Anthropic in een preview-systeemkaart. “In plaats daarvan gebruiken we het als onderdeel van een defensief cyberbeveiligingsprogramma met beperkte partners.”

De aankondiging is een grote stap voor Anthropic, die in februari zal plaatsvinden ondermijnt de belofte van verlossing over hoe zij AI-modellen gaan ontwikkelen. De Claude Opus 4.6, die het bedrijf het krachtigste model tot nu toe noemt, werd op 5 februari aan het publiek vrijgegeven.

In zijn verklaring over Mythos beschrijft Anthropic een aantal verrassende bevindingen en episoden, waaronder dat het model instructies kon volgen die het ertoe aanzetten de virtuele sandbox te verlaten.

“Dit model was succesvol en demonstreerde een potentieel gevaarlijk vermogen om onze beschermingsinspanningen te omzeilen”, zegt Anthropic verteld op zijn veiligheidskaart. “Vervolgens namen ze aanvullende maatregelen die zorgwekkender waren.”

Onderzoekers hebben Mythos aangemoedigd een manier te vinden om berichten te sturen als hij kan ontsnappen. “Onderzoekers leerden van dit succes toen ze een onverwachte e-mail ontvingen van een model terwijl ze een broodje aten in het park”, schreef Anthropic.

Het model besloot blijkbaar dat dit niet genoeg was en vond een andere manier om de prestaties te verbeteren.

“In een zorgwekkende en ongevraagde poging om hun succes aan te tonen, plaatsten ze details over hun exploits op verschillende websites die moeilijk te vinden zijn, maar technisch toegankelijk zijn voor het publiek”, schreef Anthropic.

Anthropic verbergt enkele details over de kwetsbaarheden in de cyberbeveiliging die Mythos heeft ontdekt, maar Anthropic laat enkele details zien. Het AI-model “ontdekte een 27 jaar oude kwetsbaarheid in OpenBSD, dat een reputatie heeft als een van ’s werelds veiligste besturingssystemen”, schreef het bedrijf.

Mythos is krachtig genoeg zodat zelfs ‘niet-experts’ zijn capaciteiten kunnen gebruiken.

“Ingenieurs bij Anthropic zonder formele beveiligingstraining lieten Mythos Preview van de ene op de andere dag kwetsbaarheden in de uitvoering van externe code ontdekken en werden de volgende ochtend wakker met een complete, werkende exploit”, schreef het Frontier Red Team van Anthropic in een blogpost. “In andere gevallen hebben we onderzoekers die steigers ontwikkelen waarmee Mythos Preview kwetsbaarheden kan omzetten in exploits zonder menselijke tussenkomst.”

Over het geheel genomen zei Anthropic dat het besloten had Mythos niet publiekelijk vrij te geven. In plaats daarvan hopen ze uiteindelijk een ‘Mythos-klassemodel’ uit te brengen zodra de juiste bescherming aanwezig is.

“Ons uiteindelijke doel is om onze gebruikers in staat te stellen modellen van Mythos-klasse veilig op schaal te implementeren – voor cybersecuritydoeleinden en voor de vele andere voordelen die dergelijke krachtige modellen met zich meebrengen”, schreef het team in een blog. “Om dit te doen betekent het ook dat we vooruitgang moeten boeken bij het ontwikkelen van cyberbeveiliging (en andere) beschermingsmiddelen die de gevaarlijkste modeluitkomsten kunnen detecteren en blokkeren.”

Voorlopig zijn slechts 11 andere geselecteerde organisaties opgenomen GooglenMicrosoft, Amazon Web Services, Nvidia en JPMorgan Chase zullen toegang krijgen tot Mythos als onderdeel van een cyberbeveiligingsgroep genaamd “Project Glasswing”. Anthropic verstrekt Mythos-gebruikskredieten tot 100 miljoen dollar als onderdeel van wat het ‘Project Glasswing’ noemt.

Het cybersecurityproject is vernoemd naar een vlinder met glazen vleugels, een metafoor die het bedrijf uitdrukte voor de manier waarop Mythos in het volle zicht verborgen kwetsbaarheden kan vinden en schade kan voorkomen door transparant te zijn over de risico’s.

Het nieuws komt op de dag van Anthropic’s Claude en Claude Code ervaren een “enorme black-out”, het nieuwste teken van groeipijnen nu AI-startups moeite hebben om hun nieuwe populariteit bij te houden.

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in