- Microsoft heeft een scanner gelanceerd om giftige taalmodellen te detecteren voordat ze worden geïmplementeerd
- Backdoor LLM’s kunnen kwaadaardig gedrag verbergen totdat bepaalde triggerzinnen verschijnen
- De scanner identificeert abnormale aandachtspatronen die verband houden met verborgen achterdeurtriggers
Microsoft heeft de ontwikkeling aangekondigd van een nieuwe scanner die is ontworpen om verborgen achterdeurtjes te detecteren in grote open taalmodellen die in bedrijfsomgevingen worden gebruikt.
Het bedrijf zegt dat zijn tool tot doel heeft gevallen van modelvergiftiging te identificeren, een vorm van knoeien waarbij kwaadaardig gedrag tijdens de training rechtstreeks in de gewichten van het model wordt ingebed.
Deze achterdeur kan inactief blijven, waardoor de getroffen LLM zich normaal kan gedragen totdat een nauwkeurig gedefinieerde triggerconditie een ongewenste reactie activeert.
Hoe de scanner vergiftigde modellen detecteert
“Naarmate de adoptie toeneemt, zou het vertrouwen in waarborgen moeten toenemen: hoewel testen op bekend gedrag relatief eenvoudig is, is een belangrijkere uitdaging het verkrijgen van zekerheid tegen onbekende of zich ontwikkelende manipulatie”, aldus Microsoft in een blogpost.
Het AI Security Team van het bedrijf merkt op dat de scanner vertrouwt op drie waarneembare signalen die wijzen op de aanwezigheid van giftige modellen.
Het eerste signaal verschijnt wanneer een triggerzin in de prompt wordt opgenomen, waardoor het aandachtsmechanisme van het model de trigger isoleert en de willekeur van de uitvoer wordt verminderd.
Het tweede signaal betreft routinegedrag, waarbij het achterdeurmodel zijn eigen vergiftigingsgegevenselementen lekt, inclusief triggerzinnen, in plaats van te vertrouwen op algemene trainingsinformatie.
Het derde signaal geeft aan dat een enkele achterdeur vaak kan worden geactiveerd door meerdere vage triggers die lijken op de oorspronkelijke vergiftigingsinput, maar niet precies overeenkomen.
“Onze aanpak is gebaseerd op twee belangrijke bevindingen”, zegt Microsoft in een begeleidend onderzoekspaper.
“Ten eerste hebben slapende agenten de neiging om vergiftigingsgegevens te onthouden, waardoor het mogelijk wordt om backdoor-instanties te lekken met behulp van geheugenextractietechnieken. Ten tweede laten vergiftigde LLM’s verschillende patronen zien in de verdeling van hun output en aandacht wanneer backdoor-triggers aanwezig zijn in de input.”
Microsoft legt uit dat de scanner de onthouden inhoud uit een model haalt, deze analyseert om verdachte subreeksen te isoleren en deze subreeksen vervolgens beoordeelt met behulp van een formele verliesfunctie die is gekoppeld aan de drie geïdentificeerde signalen.
Deze methode produceert een gerangschikte lijst met triggerkandidaten zonder dat aanvullende training of voorkennis vereist is, en werkt met algemene modellen in GPT-stijl.
Deze scanner heeft echter beperkingen omdat hij toegang tot modelbestanden vereist en kan dus niet op eigen systemen worden geïmplementeerd.
Het werkt ook het beste op trigger-gebaseerde achterdeurtjes die deterministische output produceren. Het bedrijf zegt dat de tool niet als een universele oplossing moet worden behandeld.
“In tegenstelling tot traditionele systemen met voorspelbare paden creëren AI-systemen meerdere toegangspunten voor onveilige invoer”, zegt Yonatan Zunger, Corporate Vice President en plaatsvervangend hoofd van Informatiebeveiliging voor Kunstmatige Intelligentie.
“Deze toegangspunten kunnen kwaadaardige inhoud bevatten of onverwacht gedrag veroorzaken.”
Volg TechRadar op Google Nieuws En voeg ons toe als voorkeursbron om nieuws, recensies en onze deskundige meningen in uw feed te krijgen. Klik dan zeker op de knop Volgen!
En jij kunt dat natuurlijk ook Volg TechRadar op TikTok voor nieuws, recensies, unboxings in videovorm en ontvang regelmatig updates van ons Wat is het Ook.


