Home Nieuws Vijf signalen dat onregelmatigheden in de gegevens uw beveiligingsmodel in gevaar hebben...

Vijf signalen dat onregelmatigheden in de gegevens uw beveiligingsmodel in gevaar hebben gebracht

3
0
Vijf signalen dat onregelmatigheden in de gegevens uw beveiligingsmodel in gevaar hebben gebracht

Gegevensdrift treedt op wanneer de statistische eigenschappen van de invoergegevens van een machine learning-model (ML) in de loop van de tijd veranderen, waardoor de voorspellingen uiteindelijk minder nauwkeurig worden. Cybersecurity professional die afhankelijk zijn van ML voor taken als malwaredetectie en analyse van netwerkbedreigingen, ontdekken dat onopgemerkte datadrift kwetsbaarheden kan introduceren. Modellen die zijn getraind op oude aanvalspatronen kunnen de geavanceerde bedreigingen van vandaag mogelijk niet herkennen. Het herkennen van vroege tekenen van gegevensonregelmatigheden is de eerste stap in het onderhouden van een betrouwbaar en efficiënt beveiligingssysteem.

Waarom datadrift beveiligingsmodellen in gevaar brengt

ML-modellen worden getraind op basis van momentopnamen van historische gegevens. Als live gegevens niet langer op deze momentopname lijken, zullen de prestaties van het model eronder lijden, wat resulteert in een kritische cyberveiligheidsrisico’s. Modellen voor bedreigingsdetectie kunnen meer valse negatieven genereren vanwege de afwezigheid van echte inbreuken of meer valse positieven genereren, wat leidt tot waarschuwingsmoeheid voor beveiligingsteams.

Tegenstanders maken actief misbruik van deze zwakte. In 2024, aanvallers gebruiken echo-spoofing-technieken om e-mailbeveiligingsservices te omzeilen. Door misbruik te maken van een verkeerde configuratie in het systeem, stuurden ze miljoenen valse e-mails die de ML-classifiers van leveranciers omzeilden. Dit incident laat zien hoe bedreigingsactoren invoergegevens kunnen manipuleren om blinde vlekken te exploiteren. Wanneer een beveiligingsmodel zich niet aanpast aan veranderende tactieken, wordt het een risico.

5 indicatoren voor gegevensafwijking

Beveiligingsprofessionals kunnen onregelmatigheden (of de potentie daarvoor) op verschillende manieren herkennen.

1. Plotselinge daling van de modelprestaties

Nauwkeurigheid, precisie en herinnering zijn vaak de eerste slachtoffers. Een consistente daling van deze belangrijke statistieken is een teken dat het model niet langer synchroon loopt met het huidige dreigingslandschap.

Kijk eens naar het succes van Klarna: de AI-assistent behandelde in de eerste maand 2,3 miljoen klantenservicegesprekken en deed het equivalente werk van 700 agenten. Deze efficiëntie drijft a 25% vermindering van herhaalde vragen en reduceert de oplossingstijd tot minder dan twee minuten.

Stel je nu voor dat deze parameters plotseling zouden veranderen als gevolg van drift. In een beveiligingscontext betekent een soortgelijke achteruitgang van de prestaties niet alleen een ontevreden klant, maar ook een succesvolle inbraak en mogelijke gegevensexfiltratie.

2. Verschuiving in de statistische verdeling

Beveiligingsteam moet de belangrijkste statistische eigenschappen van invoerkenmerken monitoren, zoals gemiddelde, mediaan en standaarddeviatie. Significante veranderingen in deze statistieken ten opzichte van de trainingsgegevens kunnen erop wijzen dat de onderliggende gegevens zijn veranderd.

Door deze verschuivingen te monitoren, kunnen teams afwijkingen signaleren voordat deze overtredingen veroorzaken. Een phishing-detectiemodel kan bijvoorbeeld worden getraind op e-mails met een gemiddelde bijlagegrootte van 2 MB. Als de gemiddelde bijlagegrootte plotseling naar 10 MB stijgt als gevolg van een nieuwe methode voor het afleveren van malware, kan het model de e-mail mogelijk niet correct classificeren.

3. Verandering in voorspellend gedrag

Hoewel de algehele nauwkeurigheid stabiel lijkt, kan de verdeling van de voorspellingen veranderen, een fenomeen dat vaak voorspellingsdrift wordt genoemd.

Als een fraudedetectiemodel bijvoorbeeld historisch gezien 1% van de transacties als verdacht heeft gemarkeerd, maar plotseling 5% of 0,1% begint te markeren, is er iets veranderd of is de aard van de invoergegevens veranderd. Dit kan duiden op nieuwe typen aanvallen die het model in verwarring brengen, of op veranderingen in legitiem gebruikersgedrag die het model niet kan identificeren.

4. Verhoogde modelonzekerheid

Voor modellen die bij hun voorspellingen betrouwbaarheids- of waarschijnlijkheidsscores verstrekken, kan een algemene daling van het vertrouwen een subtiel teken van afwijking zijn.

Recente onderzoeken benadrukken dit onzekerheid kwantificeringswaarde bij het detecteren van vijandelijke aanvallen. Als het model minder vertrouwen krijgt in zijn algemene schattingen, zal het waarschijnlijk gegevens tegenkomen waarop het niet is getraind. In een cyberbeveiligingsomgeving is deze onzekerheid een vroeg teken van mogelijk modelfalen, wat aangeeft dat het model in een onbekende omgeving opereert en dat de beslissingen die het neemt mogelijk niet langer betrouwbaar zijn.

5. Veranderingen in functierelaties

De correlatie tussen verschillende invoerfuncties kan in de loop van de tijd ook veranderen. Bij modellen voor netwerkinbraak kunnen het verkeersvolume en de pakketgrootte tijdens normale werkzaamheden nauw met elkaar samenhangen. Als dergelijke correlaties ontbreken, kan dit duiden op veranderingen in het netwerkgedrag die het model mogelijk niet begrijpt. Een plotselinge scheiding van kenmerken kan duiden op nieuwe tunneltactieken of stealth-exfiltratiepogingen.

Benaderingen voor het detecteren en beperken van gegevensdrift

Veel voorkomende detectiemethoden zijn onder meer Kolmogorov-Smirnov (KS) en de populatiestabiliteitsindex (PSI). Dit vergelijkt Live gegevensdistributie en training afwijkingen te identificeren. De KS-test bepaalt of twee datasets significant verschillen, terwijl de PSI meet hoeveel de verdeling van een variabele in de loop van de tijd is verschoven.

De keuze voor de mitigatiemethode hangt vaak af van hoe de afwijking zich manifesteert, aangezien distributieveranderingen plotseling kunnen optreden. Het koopgedrag van klanten kan bijvoorbeeld van de ene op de andere dag veranderen als er een nieuw product of een nieuwe promotie wordt gelanceerd. In andere gevallen kan de afwijking geleidelijk en over een langere periode optreden. Daarom moeten beveiligingsteams leren hun monitoringcadans aan te passen om snelle pieken en langzame brandwonden te detecteren. Mitigatie houdt in dat het model opnieuw wordt getraind op basis van nieuwere gegevens om de effectiviteit ervan te herwinnen.

Beheer proactief afwijkingen voor een betere beveiliging

Datalekken zijn een onvermijdelijke realiteit en cyberbeveiligingsteams kunnen een sterke beveiligingshouding behouden door detectie als een continu en geautomatiseerd proces te beschouwen. Proactieve monitoring en hertraining van modellen zijn fundamentele praktijken om ervoor te zorgen dat ML-systemen betrouwbaar blijven tegen zich ontwikkelende bedreigingen.

Zac Amos is functie-editor bij Opnieuw hacken.

Welkom bij de VentureBeat-community!

In ons gastenprogramma delen technische experts inzichten en geven ze onpartijdige, diepgaande uitleg over AI, data-infrastructuur, cyberbeveiliging en andere geavanceerde technologieën die de toekomst van ondernemingen vormgeven.

Lees meer uit ons gastenpostprogramma — en bekijk het eens richtlijnen als u geïnteresseerd bent om uw eigen artikel bij te dragen!

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in