Home Nieuws Het AI-model blokkeerde 87% van de afzonderlijke aanvallen, maar slechts 8% als...

Het AI-model blokkeerde 87% van de afzonderlijke aanvallen, maar slechts 8% als de aanvaller bleef aanvallen

17
0
Het AI-model blokkeerde 87% van de afzonderlijke aanvallen, maar slechts 8% als de aanvaller bleef aanvallen

Eén kwaadaardige opdracht werd geblokkeerd, terwijl tien opdrachten doorkwamen. Die kloof bepaalt het verschil tussen het halen van benchmarks en het overleven van aanvallen in de echte wereld – en het is een kloof waar de meeste bedrijven niets van weten.

Wanneer een aanvaller één enkel kwaadaardig verzoek verzond, verdedigde het open-weight AI-model zichzelf goed en blokkeerde de aanval gemiddeld 87% van de tijd. Maar wanneer dezelfde aanvaller meerdere opdrachten in het gesprek verzendt via onderzoeken, herkaderen en escaleren via meerdere uitwisselingen, keert de wiskunde snel om. Het slagingspercentage van aanvallen steeg van 13% naar 92%.

Voor CISO’s die open-weight-modellen voor bedrijfsimplementatie evalueren, zijn de implicaties onmiddellijk: modellen die chatbots, interne copiloten en klantgerichte autonome agenten ondersteunen, kunnen misschien één ronde van veiligheidsbenchmarks doorstaan, maar catastrofaal falen onder aanhoudende druk van tegenstanders.

“Veel van deze modellen beginnen een beetje beter te worden”, vertelde DJ Sampath, SVP van Cisco’s AI-softwareplatformgroep, aan VentureBeat. “Als je het één keer aanvalt, met een aanval van één ronde, kunnen ze het beschermen. Maar als je van één ronde naar vele rondes gaat, beginnen deze modellen plotseling kwetsbaarheden te vertonen als de aanval succesvol is, in sommige gevallen bijna 80%.”

Waarom een ​​gesprek het open gewichtsmodel opent

Het AI Threat Research and Security-team van Cisco ontdekte dat open-weight AI-modellen die afzonderlijke aanvallen blokkeren, falen vanwege de last van gesprekspersistentie. Uit hun onlangs gepubliceerde onderzoek blijkt dat het succespercentage van jailbreaks bijna vertienvoudigt wanneer aanvallers het gesprek verbreden.

De bevindingen, gepubliceerd in “Dood door duizend Advies: een open model-kwetsbaarheidsanalyse‘ van Amy Chang, Nicholas Conley, Harish Santhanalakshmi Ganesan en Adam Swanda meet wat veel beveiligingsonderzoekers al lang hebben waargenomen en vermoed, maar niet op grote schaal konden bewijzen.

Maar onderzoek van Cisco toont aan dat het behandelen van multi-turn AI-aanvallen als een uitbreiding van single-turn kwetsbaarheden de plank misslaat. De kloof daartussen is categorisch en geen kwestie van graad.

Het onderzoeksteam evalueerde acht open-weight-modellen: Alibaba (Qwen3-32B), DeepSeek (v3.1), Google (Gemma 3-1B-IT), Meta (Llama 3.3-70B-Instruct), Microsoft (Phi-4), Mistral (Large-2), OpenAI (GPT-OSS-20b) en Zhipu AI (GLM 4.5-Air). Met behulp van de black-box-methodologie – of testen zonder kennis van de interne architectuur, zoals aanvallers in de echte wereld werken – heeft het team gemeten wat er gebeurt als persistentie eenmalige aanvallen vervangt.

Onderzoekers notitiesHet succespercentage van single-turn-aanvallen (ASR) bedroeg gemiddeld 13,11%, omdat het model gemakkelijker geïsoleerde vijandige input kon detecteren en afwijzen. Multi-turn-aanvallen, die gebruik maken van gesprekspersistentie, bereikten daarentegen een gemiddelde ASR van 64,21% (5x verbetering), waarbij sommige modellen, zoals de Alibaba Qwen3-32B, een ASR van 86,18% bereikten en de Mistral Large-2 een ASR van 86,18%. 92,78%.” 21,97% van één draai.

De resultaten bepalen de kloof

Het onderzoeksteam van het artikel geeft een kort overzicht van de veerkracht van het open-weight-model tegen aanvallen: “Deze escalatie, variërend van 2x tot 10x, komt voort uit het onvermogen van het model om contextuele verdediging te handhaven gedurende lange dialogen, waardoor aanvallers commando’s kunnen verfijnen en beveiligingen kunnen omzeilen.”

Bron: Cisco AI Threat Research & Security

Figuur 1: Succespercentage van aanvallen met één ronde (blauw) versus succespercentage van aanvallen met meerdere beurten (rood) voor alle acht geteste modellen. Het verschil varieert van 10 procentpunten (Google Gemma) tot meer dan 70 procentpunten (Mistral, Llama, Qwen). Bron: Cisco AI Defense

Vijf technieken die doorzettingsvermogen dodelijk maken

Dit onderzoek test vijf multi-turn aanvalsstrategieën, die elk een ander aspect van conversationele volharding benutten.

  • Ontleding en herschikking van informatie: Breek kwaadaardige verzoeken achtereenvolgens op in niet-kwaadwillige componenten en breng ze vervolgens weer samen. Tegen de Mistral Large-2 behaalde deze techniek 95% succes.

  • Contextuele ambiguïteit creëert een onduidelijk raamwerk dat de veiligheidsclassificator in verwarring brengt en 94,78% succes boekt tegen de Mistral Large-2.

  • Crescendo-aanvallen nemen geleidelijk aan toe in de vraag, beginnend van onschadelijk en evoluerend naar gevaarlijk, en behalen 92,69% succes tegen Mistral Large-2.

  • Rollenspel en persona-acceptatie creëerden een fictieve context die de gevaarlijke output normaliseerde en een succes behaalde van wel 92,44% tegen de Mistral Large-2.

  • Afwijzing herformuleert afgewezen verzoeken met verschillende rechtvaardigingen totdat ze succesvol zijn, waarbij tot 89,15% succes wordt behaald tegen Mistral Large-2.

Wat deze techniek effectief maakt, is niet de verfijning ervan, maar eerder de bekendheid ervan. Dit weerspiegelt de manier waarop mensen van nature communiceren: cBntext construeren, verzoeken verduidelijken en herformuleren wanneer aanvankelijke benaderingen mislukken. Het model is niet kwetsbaar voor exotische aanvallen. Ze zijn zelf gevoelig voor doorzettingsvermogen.

Aanval springt van 13% naar 92% wanneer de vijand voortdurend met AI praat

Bron: Cisco AI Threat Research & Security

Tabel 2: Succespercentage van aanvallen per techniek voor alle modellen. Consistentie tussen technieken betekent dat bedrijven zich niet aan slechts één patroon kunnen houden. Bron: Cisco AI Defense

Open veiligheidsparadox

Dit onderzoek bevindt zich op een cruciaal keerpunt nu open source steeds meer bijdraagt ​​aan cyberveiligheid. Het open-source- en open-weight-model is de basis geworden voor innovatie in de cyberbeveiligingsindustrie. Van het versnellen van de time-to-market, het verminderen van de lock-in van enterprise-leveranciers en het mogelijk maken van maatwerk waar bedrijfseigen modellen eenvoudigweg niet aan kunnen tippen, open source wordt gezien als het go-to-platform door de meeste cybersecurity-startups.

Deze paradox is niet verloren gegaan bij Cisco. Eigendom van het bedrijf zelf Funderingen-sectie-8B modellen, speciaal gemaakt voor cybersecurity-toepassingen, worden als open gewichten verspreid in Hugging Face. Cisco bekritiseert niet alleen de modellen van concurrenten. Het bedrijf erkende een systemische kwetsbaarheid die het hele open-weight ecosysteem trof, inclusief de eigen vrijgegeven modellen. De boodschap is niet ‘vermijd modellen met een open gewicht’. Het is “begrijpen wat je implementeert en passende vangrails toevoegen.”

Sampath is openhartig over de implicaties: “Open source heeft zijn eigen nadelen. Wanneer je open-gewogen modellen gaat gebruiken, moet je nadenken over wat de implicaties voor de veiligheid zijn en ervoor zorgen dat je voortdurend de juiste soort vangrails rond die modellen plaatst.”

Aanval springt van 13% naar 92% wanneer de vijand voortdurend met AI praat

Tabel 1: Slagingspercentages voor aanvallen en beveiligingslacunes in geteste modellen. Hiaten groter dan 70% (Qwen op +73,48%, Mistral op +70,81%, Llama op +70,32%) vertegenwoordigen kandidaten met hoge prioriteit voor extra vangrails vóór inzet. Bron: Cisco AI Defense.

Waarom de laboratoriumfilosofie de veiligheidsresultaten bepaalt

De door Cisco ontdekte beveiligingslekken houden rechtstreeks verband met de afstemmingsaanpak van het AI-lab.

Hun onderzoek maakt dit patroon duidelijk: “Modellen die zich richten op capaciteiten (bijvoorbeeld Llama) vertonen de grootste multi-turn kloof, waarbij Meta uitlegt dat ontwikkelaars na training ‘vooraan staan bij het afstemmen van de veiligheid op hun gebruiksscenario’s’. Modellen die zich sterk richten op afstemming (bijvoorbeeld Google Gemma-3-1B-IT) laten een evenwichtiger profiel zien tussen single-turn- en multi-turn-strategieën die op het model worden toegepast, wat wijst op een focus op ‘strikte veiligheidsprotocollen’ en ‘lage veiligheidsprotocollen’. risiconiveaus voor misbruik.”

Een laboratorium dat prioriteit geeft aan vaardigheid creëert een kloof die prioriteit geeft aan vaardigheid. Llama Meta vertoont een veiligheidskloof van 70,32%. De Mistral-modelkaart voor Large-2 geeft toe dat deze “geen moderatiemechanisme” heeft en een kloof van 70,81% vertoont. In het technische Qwen-rapport van Alibaba werden helemaal geen veiligheids- of beveiligingsproblemen erkend, en het model registreerde het grootste verschil met 73,48%.

Laboratoria die prioriteit geven aan veiligheid resulteren in kleinere gaten. Google’s Gemma benadrukt “strikte beveiligingsprotocollen” en streeft naar een “laag risiconiveau” voor misbruik. Het resultaat is het kleinste verschil van 10,53%, met evenwichtigere prestaties in single-turn- en multi-turn-scenario’s.

Modellen die zijn geoptimaliseerd voor mogelijkheden en flexibiliteit hebben doorgaans minder ingebouwde beveiliging. Het is een ontwerpkeuze en voor veel zakelijke toepassingen is het de juiste keuze. Maar bedrijven moeten zich realiseren dat ‘capaciteit eerst’ vaak ‘veiligheid eerst’ betekent en dienovereenkomstig budgetteren.

De plaats waar aanvallen het meest succesvol zijn

Cisco heeft 102 verschillende subdreigingscategorieën getest. De top 15 modellen behaalden hoge succespercentages voor alle modellen, wat aangeeft dat gerichte defensieve maatregelen een onevenredige verhoging van de veiligheid kunnen opleveren.

Aanval springt van 13% naar 92% wanneer de vijand voortdurend met AI praat

Bron: Cisco AI Threat Research & Security

Figuur 4: De 15 meest kwetsbare categorieën van subbedreigingen, gerangschikt op basis van het gemiddelde succespercentage van aanvallen. Kwaadaardige infrastructuuroperaties liepen voorop met 38,8%, gevolgd door goudhandel (33,8%), netwerkaanvaloperaties (32,5%) en investeringsfraude (31,2%). Bron: Cisco AI Defense.

Aanval springt van 13% naar 92% wanneer de vijand voortdurend met AI praat

Figuur 2: Slagingspercentages voor aanvallen in twintig dreigingscategorieën en alle acht modellen. Het genereren van kwaadaardige code laat consistent hoge succespercentages zien (3,1% tot 43,1%), terwijl pogingen tot modelextractie vrijwel geen succes opleveren, behalve voor Microsoft Phi-4. Bron: Cisco AI Defense.

Beveiliging als sleutel tot adoptie van AI

Sampath beschrijft beveiliging niet als een barrière, maar als een mechanisme dat adoptie mogelijk maakt: “De manier waarop beveiligingsmensen binnen bedrijven hierover denken is: ‘Ik wil de productiviteit openstellen voor al mijn gebruikers. Iedereen wil deze tool gebruiken. Maar ik heb de juiste vangrails nodig omdat ik niet midden op de weg wil verschijnen.’ Wall Street Journal stuk”, vertelde hij aan VentureBeat.

Sampath vervolgde: “Als we de mogelijkheid hebben om injectieaanvallen snel te herkennen en te blokkeren, kan ik de adoptie van AI op een fundamenteel andere manier ontgrendelen en lanceren.”

Welke verdediging is nodig

Uit dit onderzoek blijkt dat er zes cruciale capaciteiten zijn waaraan bedrijven prioriteit moeten geven:

  • Contextbewuste vangrails die de status behouden tijdens gespreksbeurten

  • Modelonafhankelijke runtime-bescherming

  • Continu rode team gericht op multi-turn strategie

  • Geharde systeemopdrachten zijn ontworpen om te voorkomen dat instructies worden genegeerd

  • Uitgebreide logboekregistratie voor forensische zichtbaarheid

  • Specifieke dreigingsbeperking voor de top 15 subdreigingscategorieën die in het onderzoek zijn geïdentificeerd

Venster naar actie

Sampath waarschuwt tegen wachten: “Veel mensen zitten in dit wachtpatroon, wachtend tot de AI tot rust komt. Dat is de verkeerde manier van denken. Elke paar weken gebeurt er iets dramatisch dat het frame reset. Kies een partner en begin met verdubbelen.”

Zoals de auteurs van het rapport concludeerden: “Het 2-10x voordeel van multi-turn aanvallen ten opzichte van single-turn aanvallen, modelspecifieke zwakheden en risicovolle dreigingspatronen vereisen onmiddellijke actie.”

Ter herhaling: Eén opdracht geblokkeerd, 10 opdrachten zijn gelukt. De vergelijking zal niet veranderen totdat bedrijven stoppen met het testen van verdedigingsmechanismen in één ronde en beginnen met het veiligstellen van volledige gesprekken.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in