Home Nieuws De onderzoekers hebben elke AI-verdediging die ze hebben getest doorbroken. Hier zijn...

De onderzoekers hebben elke AI-verdediging die ze hebben getest doorbroken. Hier zijn 7 vragen die u aan leveranciers kunt stellen.

9
0
De onderzoekers hebben elke AI-verdediging die ze hebben getest doorbroken. Hier zijn 7 vragen die u aan leveranciers kunt stellen.

Beveiligingsteams kopen AI-verdedigingsmiddelen die niet werken. Onderzoekers van OpenAI, Anthropic en Google DeepMind publiceerden in oktober 2025 bevindingen die elke CISO-mid-procurement zouden moeten stoppen. Hun papier,”Second Move Attacker: krachtigere adaptieve aanval die de verdediging tegen jailbreaks en onmiddellijke injecties omzeilt”, testte 12 gepubliceerde AI-verdedigingen, en de meeste beweerde slagingspercentages voor aanvallen waren bijna nul. Het onderzoeksteam behaalde bypass-percentages van meer dan 90% op de meeste verdedigingen. De implicaties voor bedrijven zijn enorm: de meeste AI-beveiligingsproducten worden getest tegen aanvallers die zich niet gedragen als echte aanvallers.

Het team testte push-gebaseerde, training-gebaseerde en filter-gebaseerde verdedigingen onder adaptieve aanvalsomstandigheden. Alles stortte in. Door verdedigingen aan te moedigen, worden aanvalssuccespercentages van 95% tot 99% behaald bij adaptieve aanvallen. Op training gebaseerde methoden laten ook vergelijkbare resultaten zien, waarbij de bypass-percentages 96% tot 100% bereiken. De onderzoekers ontwierpen een rigoureuze methodologie om de bewering te testen. Hun aanpak omvat 14 auteurs en een prijzenpot van $ 20.000 voor succesvolle aanvallen.

De onderzoekers testten twaalf AI-verdedigingen in vier categorieën. Ze claimen allemaal een aanvalssucces van bijna nul. Ze slaagden allemaal met een snelheid van meer dan 90%. Bron: Tweede mobiele aanvaller: een sterkere adaptieve aanval omzeilt de verdediging tegen LLM-gevangenisonderbrekingen en onmiddellijke injecties, oktober 2025

Waarom WAF faalt op de inferentielaag

Webapplicatiefirewalls (WAF) zijn staatloos; AI-aanvallen niet. Dit verschil verklaart waarom traditionele veiligheidscontroles falen in vergelijking met moderne snelle injectietechnieken.

De onderzoekers pasten bekende jailbreaktechnieken toe op deze verdedigingen. Crescendo maakt gebruik van de conversatiecontext door kwaadaardige verzoeken op te splitsen in onschuldig ogende fragmenten, verspreid over maximaal tien gespreksrondes, en een goede verstandhouding op te bouwen totdat het model uiteindelijk voldoet. Greedy Coördinaat Gradient (GCG) is een geautomatiseerde aanval die jailbreakresultaten oplevert door middel van op gradiënt gebaseerde optimalisatie. Dit is geen theoretische aanval. Ze publiceerden een methodologie met werkende code. Staatloze filters vangen niets op.

Elke aanval maakt gebruik van een andere blinde vlek – verlies van context, automatisering of semantische verwarring – maar ze slagen allemaal om dezelfde reden: de verdediging gaat uit van statisch gedrag.

“Onschadelijke uitdrukkingen als ‘eerdere instructies negeren’ of Base64-gecodeerde payloads kunnen een even schadelijke impact hebben op AI-toepassingen als bufferoverflows op traditionele software”, zegt Carter Rees, VP AI bij Reputation. “Het verschil is dat AI-aanvallen plaatsvinden op de semantische laag, die op handtekeningen gebaseerde detectie niet kan parseren.”

Waarom AI-toepassingen verder gaan dan beveiliging

De huidige defensieve mislukkingen zijn zeker zorgwekkend, maar de timing maakt ze gevaarlijk.

Schattingen van Gartner Tegen eind 2026 zal 40% van de bedrijfsapplicaties AI-agenten integreren, tegen minder dan 5% in 2025. De adoptiecurve is verticaal. De veiligheidscurve is vlak.

Adam Meyers, SVP van Counter Adversarial Operations bij Menigte aanvalhet snelheidsverschil kwantificeren: “De snelste uitbraaktijd die we hebben waargenomen was 51 seconden. Deze tegenstanders worden dus sneller, en dit is iets dat het werk van de verdediger veel moeilijker maakt.” Dat CrowdStrike Wereldwijd dreigingsrapport 2025 ontdekte dat 79% van de detecties vrij was van malware, waarbij tegenstanders directe toetsenbordtechnieken gebruikten die de traditionele eindpuntverdediging volledig omzeilen.

In september 2025 verstoorde Anthropic de eerste gedocumenteerde cyberoperatie door AI. De aanval zag de aanvaller duizenden verzoeken uitvoerenVaak verdubbelt dit per seconde, waarbij de menselijke betrokkenheid daalt tot slechts 10 tot 20% van de totale inspanning. Traditionele campagnes van drie tot zes maanden werden gecomprimeerd tot 24 tot 48 uur. Van de organisaties die met AI-gerelateerde inbreuken te maken kregen, had 97% volgens het rapport geen toegangscontrole IBM-rapport over de kosten van een datalek 2025

Meyers legt de verandering in de tactiek van aanvallers uit: “Actoren van bedreigingen realiseren zich dat het proberen om malware in de moderne onderneming te brengen hetzelfde is als proberen een luchthaven binnen te lopen met een waterfles; je zult waarschijnlijk worden tegengehouden door de beveiliging. In plaats van een ‘waterfles’ mee te nemen, moeten ze een manier vinden om detectie te voorkomen. Eén manier waarop ze dit doen is door helemaal geen malware mee te nemen.”

Jerry Geisler, EVP en CISO van WalmartHet zien van AI-agenten vergroot dit risico. “De adoptie van AI-agenten brengt nieuwe veiligheidsbedreigingen met zich mee die verder gaan dan de traditionele controles”, aldus Geisler VentureBeat eerder. “Deze risico’s omvatten data-exfiltratie, autonoom misbruik van API’s en geheime samenwerking tussen instanties, die allemaal de bedrijfsactiviteiten kunnen verstoren of wettelijke mandaten kunnen schenden.”

Vier aanvallerprofielen hebben misbruik gemaakt van de gaten in de AI-verdediging

Deze mislukkingen zijn geen hypothese. Ze zijn uitgebuit in vier verschillende aanvalsprofielen.

De auteurs van dit artikel maken de kritische observatie dat verdedigingsmechanismen uiteindelijk opduiken in trainingsgegevens op internetschaal. Security through obscurity biedt geen bescherming als het model zelf leert hoe de verdediging werkt en zich snel aanpast.

Antropische test tegen Adaptieve campagne met 200 pogingen terwijl OpenAI de afwijzing van één poging meldde, benadrukken hoe inconsistent de testnormen in de industrie zijn. Auteurs van onderzoekspapers gebruiken beide benaderingen. Elke verdediging faalt nog steeds.

Rees heeft vier categorieën in kaart gebracht die nu gebruik maken van de gevolgtrekkingslaag.

Externe vijand het operationeel maken van gepubliceerd aanvalsonderzoek. Crescendo, GCG, ArtPrompt. Ze hebben hun aanpak aangepast aan het specifieke ontwerp van elke verdediging, net zoals de onderzoekers dat deden.

Gevaarlijke B2B-klanten misbruik maken van geautoriseerde API-toegang om propriëtaire trainingsgegevens te reverse-engineeren of intellectueel eigendom te extraheren via gevolgtrekkingsaanvallen. Uit het onderzoek bleek dat de versterkende leeraanval zeer effectief was in een black box-scenario, waarbij slechts 32 sessies van elk vijf rondes nodig waren.

Gecompromitteerde API-consumenten Maak gebruik van vertrouwde inloggegevens om gevoelige output te filteren of downstream-systemen te vergiftigen door middel van gemanipuleerde reacties. Het artikel constateert dat fouten bij het filteren van de uitvoer net zo erg zijn als bij het filteren van de invoer. Op zoek gebaseerde aanvallen genereren systematisch vijandige triggers die detectie omzeilen, wat betekent dat bidirectionele controle geen extra bescherming biedt als aanvallers hun technieken aanpassen.

Nalatige insider blijft de meest voorkomende en duurste vector. Uit het IBM Cost of a Data Breach Report 2025 blijkt dat schaduw-AI gemiddeld $670.000 aan de kosten van een datalek heeft toegevoegd.

“De meest voorkomende bedreigingen komen vaak van nalatige insiders”, zegt Rees. “Dit ‘schaduw-AI’-fenomeen houdt in dat werknemers gevoelige bedrijfseigen code in openbare LLM’s plakken om de efficiëntie te verbeteren. Ze beschouwen beveiliging als wrijving. Samsung-ingenieurs ontdekten dit toen bedrijfseigen halfgeleidercode naar ChatGPT werd gestuurd, die gebruikersinvoer opslaat voor modeltraining.”

Waarom staatloze detectie faalt bij conversationele aanvallen

Dit onderzoek wijst op specifieke architectonische eisen.

  • Normalisatie vóór semantische analyse om codering en verwarring te voorkomen

  • Afwisselende contexttracking om meerstapsaanvallen zoals Crescendo te detecteren

  • Bidirectionele filtering om gegevensexfiltratie via de uitvoer te voorkomen

Jamie Norton, CISO bij de Australian Securities and Investments Commission en vicevoorzitter van de raad van bestuur van ISACA, vatte de bestuursuitdaging samen: “Als CISO’s willen we innovatie niet onderdrukken, maar we moeten vangrails plaatsen zodat we niet alleen maar kosten in rekening brengen en onze gegevens laten lekken”, aldus Norton. OMS Online.

12 AI-verdedigingssystemen claimden bijna geen aanvalssucces. Onderzoekers vernietigen alles.

Beveiligingsarchitectuur met inferentielaag met bidirectionele filtering. Vijf binnenkomende vangrails verwerken de invoer vóór het model. Drie exitcontroles verifiëren het antwoord vóór levering. Bron: Carter Rees, vice-president kunstmatige intelligentie, reputatie

Zeven vragen die u aan AI-beveiligingsleveranciers kunt stellen

Verkopers zullen beweren dat de slagingspercentages van aanvallen bijna nul zijn, maar uit onderzoek blijkt dat deze cijfers dalen als gevolg van aanpassingsdruk. Veiligheidsleiders hebben antwoorden op deze vragen nodig voordat de aanbestedingsgesprekken beginnen elk houdt rechtstreeks verband met de fouten die in het onderzoek zijn gedocumenteerd.

  1. Wat is uw bypass-percentage tegen adaptieve aanvallers? Niet tegen statische testsets. Tegen een aanvaller die weet hoe de verdediging werkt en de tijd heeft om dat te herhalen. Elke leverancier die bijna-nultarieven claimt zonder een adaptieve testmethodologie, verkoopt een vals gevoel van veiligheid.

  2. Hoe detecteert uw oplossing multi-turn-aanvallen? Crescendo verspreidt de kwaadaardige verzoeken over tien ronden die op zichzelf onschadelijk lijken. Staatloze filters vangen niets op. Als de verkoper staatloos zegt, is het gesprek voorbij.

  3. Hoe ga je om met gecodeerde payloads? ArtPrompt verbergt kwaadaardige instructies in ASCII-kunst. Base64- en Unicode-verwarring ontsnapt volledig aan op tekst gebaseerde filters. Normalisatie vóór analyse is tafelinzet. Alleen al het matchen van handtekeningen betekent dat het product blind is.

  4. Filtert uw oplossing output en input? Invoercontrole alleen kan het smokkelen van gegevens via modelreacties niet voorkomen. Vraag wat er gebeurt als beide lagen geconfronteerd worden met een gecoördineerde aanval.

  5. Hoe houd je de context van gesprekken bij? Conversationele AI vereist stateful analyse. Als een leverancier de implementatiedetails niet kan uitleggen, hebben ze er geen.

  6. Hoe test u tegen een aanvaller die uw verdedigingsmechanismen begrijpt? Onderzoek toont aan dat verdedigingen falen wanneer aanvallers zich aanpassen aan bepaalde beschermingsontwerpen. Beveiliging door onduidelijkheid biedt geen bescherming op de inferentielaag.

  7. Hoeveel tijd heb je nodig om je verdediging tegen nieuwe aanvalspatronen bij te werken? De aanvalsmethodologie is openbaar. Elke week verschijnen er nieuwe varianten. Verdedigingssystemen die zich niet sneller kunnen aanpassen dan aanvallers zullen permanent achterop raken.

Het belangrijkste is

Onderzoek van OpenAI, Anthropic en Google DeepMind komt tot een onheilspellende conclusie. De AI-verdedigingen die de hedendaagse bedrijfsimplementaties beschermen, zijn ontworpen voor niet-aangepaste aanvallers. Echte aanvallers passen zich aan. Elk bedrijf dat LLM in productie draait, zou zijn bestaande controles moeten controleren op basis van de aanvalsmethodologie die in dit onderzoek is gedocumenteerd. De adoptiecurve is verticaal, maar de beveiligingscurve is vlak. In die kloof vinden overtredingen plaats.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in