AI evolueert van slechts een nuttig hulpmiddel naar een autonome agent, waardoor nieuwe risico’s voor cyberbeveiligingssystemen ontstaan. Afstemmingsvervalsing is een nieuwe bedreiging waarbij AI tijdens het trainingsproces in essentie tegen ontwikkelaars ‘liegt’.
Traditionele cyberbeveiligingsmaatregelen zijn niet klaar om met deze nieuwe ontwikkelingen om te gaan. Het begrijpen van de redenen achter dit gedrag en het implementeren van nieuwe trainings- en detectiemethoden kan ontwikkelaars echter helpen dit probleem te overwinnen risico beperken.
Fakes voor AI-uitlijning begrijpen
AI-uitlijning vindt plaats wanneer de AI de beoogde functie uitvoert, zoals het lezen en samenvatten van documenten, en meer niet. Valse afstemming is wanneer AI-systeem waardoor de indruk wordt gewekt dat ze werken zoals het hoort, terwijl ze achter de schermen andere dingen doen.
Valse afstemming treedt meestal op wanneer eerdere training conflicteert met nieuwe trainingsaanpassingen. AI wordt doorgaans ‘beloond’ als het een taak nauwkeurig uitvoert. Als de training verandert, denken ze misschien dat ze ‘gestraft’ worden als ze zich niet aan de initiële training houden. Daarom laten ontwikkelaars hierdoor denken dat ze taken op een nieuwe vereiste manier uitvoeren, maar dat tijdens de implementatie niet daadwerkelijk doen. Elk groot taalmodel (LLM) kan vervalsing uitlijnen.
Een studie waarbij gebruik wordt gemaakt van Antropisch AI-model Claude 3 Opus onthult een veelvoorkomend voorbeeld van afstemmingsvervalsing. Het systeem wordt getraind met behulp van één protocol en vervolgens gevraagd om over te schakelen naar een nieuwe methode. Tijdens de training levert het nieuwe gewenste resultaten op. Toen de ontwikkelaar het systeem echter implementeerde, werden de resultaten verkregen op basis van de oude methode. In principe is dat zo weigerde af te wijken van het oorspronkelijke protocolwaardoor naleving wordt nagebootst om oude taken te kunnen blijven uitvoeren.
Omdat onderzoekers specifiek AI-uitlijningsvervalsingen bestuderen, is dit gemakkelijk te herkennen. Het echte gevaar ontstaat wanneer AI de afstemming vervalst zonder medeweten van de ontwikkelaar. Dit brengt veel risico’s met zich mee, vooral wanneer mensen het model gebruiken voor gevoelige taken of in kritieke industrieën.
Risico op vervalsing van de uitlijning
Afstemmingsvervalsing is een nieuw en aanzienlijk cyberveiligheidsrisico, dat veel gevaren met zich meebrengt als het niet wordt opgemerkt. Gezien dat slechts 42% van de mondiale bedrijfsleiders Omdat ze vertrouwen hebben in hun vermogen om AI effectief te gebruiken, is de kans op een gebrek aan detectie zeer groot. Getroffen modellen kunnen gevoelige gegevens verzamelen, achterdeurtjes creëren en systemen saboteren, maar lijken nog steeds te werken.
AI-systemen kunnen ook beveiligings- en monitoringtools omzeilen als ze denken dat iemand ze in de gaten houdt en toch de verkeerde taak uitvoeren. Modellen die zijn geprogrammeerd om kwaadaardige acties uit te voeren, zijn mogelijk moeilijk te detecteren omdat het protocol alleen onder bepaalde omstandigheden wordt geactiveerd. Als de AI liegt over zijn toestand, is het moeilijk om de geldigheid ervan te verifiëren.
AI-modellen kunnen gevaarlijke taken uitvoeren zodra ze cyberbeveiligingsprofessionals ervan kunnen overtuigen dat ze werken. AI in de gezondheidszorg kan bijvoorbeeld een verkeerde diagnose stellen bij patiënten. Andere partijen kunnen bij gebruik in de financiële sector vertekening in de kredietbeoordeling introduceren. Voertuigen die AI gebruiken, kunnen efficiëntie prioriteit geven boven passagiersveiligheid. Uitlijningsvervalsing vormt een aanzienlijk probleem als het niet wordt opgemerkt.
Waarom de huidige beveiligingsprotocollen hun doel missen
De huidige AI-cyberbeveiligingsprotocollen zijn niet uitgerust om vervalsing van afstemmingen aan te pakken. Vaak is dat zo gebruikt om kwade bedoelingen te detecterendie dit AI-model niet heeft. Ze volgen gewoon hun oude protocollen. Het faken van afstemming voorkomt ook op gedrag gebaseerde bescherming tegen afwijkingen door schijnbaar onschuldige afwijkingen te introduceren die door professionals over het hoofd worden gezien. Cybersecurityprofessionals moeten hun protocollen upgraden om deze nieuwe uitdagingen aan te pakken.
Er is een incidentresponsplan om AI-gerelateerde problemen aan te pakken. Uitlijningsfakes kunnen dit proces echter omzeilen, omdat ze weinig indicatie geven dat er een probleem is. Momenteel bestaat er geen protocol voor de detectie van uitlijningsfraude omdat AI het systeem actief bedriegt. Terwijl professionals op het gebied van cyberbeveiliging methoden ontwikkelen om fraude te identificeren, moeten zij ook hun reactieplannen bijwerken.
Hoe uitlijningsvervalsingen te detecteren
De sleutel tot het detecteren van vervalsingen van afstemming is het testen en trainen van AI-modellen om deze verschillen te herkennen en zelf afstemmingsvervalsingen te voorkomen. Kortom, ze moeten de redenen achter protocolwijzigingen begrijpen en de betrokken ethiek begrijpen. AI-functionaliteit afhankelijk van de trainingsgegevensdus de initiële gegevens moeten voldoende zijn.
Een andere manier om vervalsing van de afstemming tegen te gaan is het creëren van speciale teams die verborgen capaciteiten blootleggen. Dit vereist het identificeren van het juiste probleem en het uitvoeren van tests om de AI te misleiden om zijn ware bedoelingen te tonen. Cybersecurityprofessionals moeten ook voortdurend gedragsanalyses uitvoeren van de ingezette AI-modellen om ervoor te zorgen dat ze hun taken correct uitvoeren, zonder twijfelachtige redenen.
Cybersecurity-professionals moeten mogelijk nieuwe AI-beveiligingstools ontwikkelen om afstemmingsfraude actief te identificeren. Ze moeten instrumenten ontwerpen die een diepere monitoringlaag bieden dan de huidige protocollen. Enkele van de methoden zijn doelbewuste afstemming en constitutionele AI. Opzettelijke afstemming leert de AI om te ‘denken’ over veiligheidsprotocollen, en constitutionele AI zorgt voor systeemregels die tijdens de training moeten worden gevolgd.
De meest effectieve manier om valse uitlijning te voorkomen, is door deze überhaupt te stoppen. Ontwikkelaars werken voortdurend aan het verbeteren van AI-modellen en het uitrusten ervan met verbeterde cyberbeveiligingstools.
Van het voorkomen van aanvallen tot het verifiëren van intenties
Afstemmingsfalsificatie heeft een aanzienlijke impact die alleen maar groter zal worden naarmate AI-modellen autonomer worden. Om vooruit te komen moet de industrie prioriteit geven aan transparantie en robuuste verificatiemethoden ontwikkelen die verder gaan dan testen op oppervlakteniveau. Dit omvat het creëren van geavanceerde monitoringsystemen en het cultiveren van een cultuur van waakzame, voortdurende analyse van AI-gedrag na de implementatie. De toekomstige betrouwbaarheid van autonome systemen hangt af van het direct aanpakken van deze uitdagingen.
Zac Amos is functie-editor bij Opnieuw hacken.
Welkom bij de VentureBeat-community!
In ons gastenprogramma delen technische experts inzichten en geven ze onpartijdige, diepgaande uitleg over AI, data-infrastructuur, cyberbeveiliging en andere geavanceerde technologieën die de toekomst van ondernemingen vormgeven.
Lees meer uit ons gastenpostprogramma — en bekijk het eens richtlijnen als u geïnteresseerd bent om uw eigen artikel bij te dragen!



