Home Nieuws Dit Microsoft-beveiligingsteam test AI op de worstcasescenario’s

Dit Microsoft-beveiligingsteam test AI op de worstcasescenario’s

1
0
Dit Microsoft-beveiligingsteam test AI op de worstcasescenario’s

Zo nieuw AI product wordt uitgebracht, beginnen beveiligingsonderzoekers en grappenmakers de zwakke punten ervan te onderzoeken, in een poging het systeem daartoe aan te zetten hun eigen veiligheidsmaatregelen overtreden en hen overhalen om alles te produceren, van aanstootgevende inhoud tot instructies voor het maken van wapens.

De risico’s van AI zijn echter niet alleen theoretisch. De afgelopen maanden kregen verschillende AI-bedrijven kritiek omdat hun software hieraan zou bijdragen psychische aandoeningen en zelfmoordzonder toestemming valse naaktfoto’s van echte mensen, en helpt hackers bij cybercriminaliteit. Tegelijkertijd ontwikkelen zich ook technieken om beveiligingsmaatregelen te omzeilen, waarbij de nieuwste methoden alles bestrijken kwade impulsen vermomd in poëzie naar implanteer in het geheim ideeën in het geheugen van de AI-assistent via een ogenschijnlijk onschuldige online tool.

Maar lang voordat nieuwe modellen voor het publiek worden gelanceerd, is het interne beveiligingsteam deze modellen al aan het testen. Bij Microsoft ligt die verantwoordelijkheid grotendeels bij het bedrijf AI Rode Teameen groep die sinds 2018 samenwerkt met productteams en de bredere AI-gemeenschap om modellen en applicaties te testen voordat kwaadwillende actoren dat kunnen.

In cybersecurity-termen richt het rode team zich op het simuleren van aanvallen op een systeem, terwijl het blauwe team zich richt op de verdediging ervan. Het AI Red Team van Microsoft is daarop geen uitzondering en onderzoekt een breed scala aan veiligheids- en beveiligingsproblemen – van situaties waarbij AI het menselijk toezicht ontwijkt tot problemen rond chemische, biologische en nucleaire dreigingen – van situaties waarbij AI de controle verliest, en dit in een breed scala aan AI-software.

“We kijken naar een zeer diverse reeks technologieën”, zegt Tori Westerhoff, hoofdonderzoeker op het gebied van AI-beveiliging bij Microsoft AI Red Team. “Een deel van de magie van dit team is dat we naar alles kunnen kijken, van productfuncties tot systemen, tot copiloten en geavanceerde modellen, en we kunnen zien hoe technologie in al deze dingen is geïntegreerd, en hoe AI groeit en evolueert.”

In één geval, zegt Pete Bryan, hoofd AI-beveiligingsonderzoek bij Red Team, werkten de leden samen met andere Microsoft-onderzoekers om te testen of AI kon worden gemanipuleerd om cyberaanvallen te ondersteunen, waaronder het genereren of verbeteren van malware. Ze experimenteerden met het structureren van vragen op minder complexe manieren, zoals het beschrijven van studentenprojecten of scenario’s voor beveiligingsonderzoek, en dwongen het systeem vervolgens om steeds gedetailleerdere resultaten te produceren.

Deze inspanning gaat verder dan eenvoudige snelle tests. De onderzoekers evalueerden of de AI code kon produceren die daadwerkelijk werd gecompileerd en uitgevoerd, en of bepaalde programmeertalen de kans op kwaadaardige uitvoer vergrootten. In het ergste geval, zegt Bryan, genereert het systeem code die vergelijkbaar is met wat een hacker op laag tot middenniveau al zou kunnen genereren, maar het team is nog steeds bezig met het verfijnen van het detectiesysteem om dergelijk gedrag beter te kunnen signaleren.

“Als er in de toekomst een model komt dat capabeler is en toegevoegde waarde kan bieden, zijn we in dit opzicht al verder gevorderd”, aldus Bryan.

Tegenwoordig bestaat het Rode Team uit enkele tientallen specialisten met een achtergrond variërend van softwaretesten tot biologie. De groep werkt ook samen met externe experts en peer-teams in de AI-industrie. Bryan en Westerhoff een lezing geven tijdens de RSAC-conferentie op 24 maart, en het team heeft open source-tools uitgebracht, waaronder geautomatiseerd testframework genaamd PyRIT (wat staat voor Python Risk Identification Tool), samen met gids om AI-systemen te evalueren.

De inspanningen van het team werden onlangs aangehaald in het eigen werk van Microsoft, waaronder de aankondiging van een AI-model voor het genereren van afbeeldingen op 19 maart ingehuldigden in releases van derden, zoals “systeem kaartlegt de functionaliteit en het testen van OpenAI’s GPT-5-model uit. Microsoft publiceerde onlangs ook AI-beveiligingsonderzoek potentiële risico’s rond AI-verbeteringen en methoden voor het vinden van verborgen achterdeurtjes, of opzettelijk verborgen beveiligings- en veiligheidszwakheden, in open gewichtsmodel.

Naarmate het AI-ecosysteem zich uitbreidt met meer geavanceerde copiloten, autonome agenten en multimodale systemen die tekst, afbeeldingen, audio en video kunnen genereren, wordt het mandaat van het Rode Team steeds complexer. Veel van de hedendaagse toepassingen, van geautomatiseerde codering tot AI-gestuurd winkelen en het maken van video’s, klonken misschien nog maar een paar jaar geleden als sciencefiction.

“Voor mijn team denk ik dat dat het leuke is, omdat je zoveel verschillende dingen ziet”, aldus Westerhoff. “We testen niet alleen elke dag modellen, maar we testen ook hoe modellen zich door het hele technologie-ecosysteem bewegen.”


Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in