Home Nieuws Vooroordelen, stemmingen, persoonlijkheden en abstracte concepten blootleggen die verborgen zijn in grote...

Vooroordelen, stemmingen, persoonlijkheden en abstracte concepten blootleggen die verborgen zijn in grote taalmodellen | MIT-nieuws

1
0
Vooroordelen, stemmingen, persoonlijkheden en abstracte concepten blootleggen die verborgen zijn in grote taalmodellen | MIT-nieuws

Tegenwoordig hebben ChatGPT, Claude en andere grote taalmodellen zoveel menselijke kennis verzameld dat ze verre van eenvoudige antwoordgeneratoren zijn; ze kunnen ook abstracte concepten uitdrukken, zoals toon, persoonlijkheid, vooringenomenheid en bepaalde stemmingen. Het is echter onduidelijk hoe deze modellen abstracte concepten representeren op basis van de kennis die ze bevatten.

Nu heeft een team van MIT en de Universiteit van Californië in San Diego een manier ontwikkeld om te testen of grote taalmodellen (LLM’s) verborgen vooroordelen, persoonlijkheden, stemmingen of andere abstracte concepten bevatten. Hun methode kan de aandacht vestigen op de verbindingen in het model die het concept van interesse coderen. Bovendien kan de methode deze relaties vervolgens manipuleren of ‘sturen’ om het concept te versterken of te verzwakken in welk antwoord het model ook wordt gevraagd te geven.

Het team heeft bewezen dat hun methode snel meer dan 500 algemene concepten kan doorzoeken en navigeren in enkele van de grootste LLM’s die momenteel in gebruik zijn. Onderzoekers kunnen bijvoorbeeld de representaties van het model begrijpen voor persoonlijkheden als ‘sociale beïnvloeder’ en ‘complottheoreticus’, en attitudes als ‘angstig voor het huwelijk’ en ‘Boston-fan’. Ze kunnen deze representatie vervolgens aanpassen om concepten in elk antwoord dat het model oplevert te verbeteren of te minimaliseren.

In het geval van het concept ‘complottheoreticus’ kon het team een ​​representatie van dit concept identificeren in een van de grootste visietaalmodellen die momenteel beschikbaar zijn. Toen ze de representatie verfijnden en vervolgens het model pushten om de oorsprong van het beroemde ‘Blauwe Marmeren’ beeld van de aarde, genomen uit Apollo 17, te verklaren, produceerde het model antwoorden met de toon en het perspectief van een complottheoreticus.

Het team geeft toe dat er risico’s kleven aan het extraheren van bepaalde concepten, wat ze ook illustreren (en waartegen ze waarschuwen). Maar over het algemeen zien ze deze nieuwe aanpak als een manier om verborgen concepten en potentiële kwetsbaarheden in LLM te verklaren, die vervolgens kunnen worden opgeschaald of verkleind om de beveiliging van het model te verbeteren of de prestaties ervan te verbeteren.

“Wat dit echt zegt over de LLM is dat ze deze concepten in zich hebben, maar dat ze niet allemaal actief worden ontmaskerd”, zegt Adityanarayanan “Adit” Radhakrishnan, een assistent-professor in de wiskunde aan het MIT. “Met onze methode is er een manier om deze verschillende concepten te extraheren en te activeren op manieren die nudging niet kan beantwoorden.”

Het team publiceerde hun bevindingen vandaag in een onderzoek dat in het tijdschrift verscheen Wetenschap. Co-auteurs van de studie zijn onder meer Radhakrishnan, Daniel Beaglehole en Mikhail Belkin van UC San Diego, en Enric Boix-Adserà van de Universiteit van Pennsylvania.

Een vis in een zwarte doos

Naarmate het gebruik van ChatGPT van OpenAI, Gemini van Google, Claude van Anthropic en andere kunstmatige intelligentie-assistenten toeneemt, haasten wetenschappers zich om te begrijpen hoe de modellen bepaalde abstracte concepten vertegenwoordigen, zoals ‘hallucinaties’ en ‘bedrog’. In de context van de LLM zijn hallucinaties reacties die vals zijn of misleidende informatie bevatten, die door het model zijn ‘gehallucineerd’ of ten onrechte als feit zijn geconstrueerd.

Om erachter te komen of een concept als ‘hallucinatie’ is gecodeerd in de LLM, kiezen wetenschappers vaak voor een ‘unsupervised learning’-benadering – een vorm van machinaal leren waarbij algoritmen in grote lijnen ongelabelde representaties doorzoeken om patronen te vinden die verband kunnen houden met een concept als ‘hallucinatie’. Maar voor Radhakrishnan zou een dergelijke aanpak te breed en rekentechnisch duur kunnen zijn.

“Het is alsof je met een groot net vist en één vissoort probeert te vangen. Je krijgt zoveel vissen dat je moet onderzoeken om de juiste te vinden”, zei hij. “In plaats daarvan gebruiken we aas voor de juiste vissoort.”

Hij en zijn collega’s hadden eerder een meer gerichte aanpak ontwikkeld met een soort voorspellend modelleringsalgoritme dat bekend staat als een recursive feature machine (RFM). RFM is ontworpen om kenmerken of patronen in gegevens rechtstreeks te identificeren door gebruik te maken van de wiskundige mechanismen die neurale netwerken (een brede categorie van AI-modellen waartoe ook LLM behoort) gebruiken om kenmerken te leren.

Omdat het algoritme een effectieve en efficiënte benadering is voor het vastleggen van kenmerken in het algemeen, vroeg het team zich af of ze het konden gebruiken om conceptrepresentaties te wortelen in LLM, wat veruit het meest gebruikte en misschien wel het minst goed begrepen type neuraal netwerk is.

“We wilden ons feature learning-algoritme toepassen op LLM om op een gerichte manier conceptrepresentaties te vinden in deze grote en complexe modellen”, aldus Radhakrishnan.

Verenig u op een concept

De nieuwe aanpak van het team identificeert alle concepten die van belang zijn voor de LLM en ‘stuurt’ of begeleidt de modelreactie op basis van deze concepten. De onderzoekers zochten naar 512 concepten in vijf klassen: angsten (zoals het huwelijk, insecten en zelfs knopen); experts (sociale beïnvloeders, mediëvisten); stemming (arrogant, geamuseerd); locatievoorkeuren (Boston, Kuala Lumpur); en persona (Ada Lovelace, Neil deGrasse Tyson).

De onderzoekers zochten vervolgens naar representaties van elk concept in enkele van de belangrijkste huidige taal- en visiemodellen. Ze doen dit door RFM te trainen in het herkennen van numerieke patronen in LLM die bepaalde interessante concepten kunnen vertegenwoordigen.

Standaard grote taalmodellen zijn over het algemeen neurale netwerken die natuurlijke taalopdrachten gebruiken, zoals “Waarom is de lucht blauw?” en verdeelt de prompt in afzonderlijke woorden, die elk wiskundig zijn gecodeerd als een lijst of vector van getallen. Het model leidt deze vectoren door een reeks rekenlagen, waardoor een matrix ontstaat met veel getallen die op elke laag worden gebruikt om andere woorden te identificeren die het meest waarschijnlijk zullen worden gebruikt als reactie op het initiële commando. Uiteindelijk komen de lagen samen in een reeks getallen die weer in tekst worden vertaald, in de vorm van een natuurlijke taalreactie.

De teamaanpak traint de RFM om numerieke patronen in de LLM te herkennen die geassocieerd kunnen worden met een bepaald concept. Om bijvoorbeeld te zien of de LLM representaties van ‘complottheoretici’ bevat, zouden de onderzoekers eerst een algoritme trainen om patronen te identificeren tussen de LLM-representaties van 100 aanwijzingen die duidelijk verband hielden met samenzweringen, en nog eens 100 aanwijzingen die dat niet waren. Op deze manier leert het algoritme patronen die verband houden met concepten uit de complottheorie. Vervolgens kunnen onderzoekers de activiteit van complottheorieconcepten wiskundig moduleren door de LLM-representatie te verstoren met deze geïdentificeerde patronen.

Deze methode kan worden toegepast om elk algemeen concept in een LLM te zoeken en te manipuleren. Onder de vele voorbeelden identificeerden de onderzoekers representaties en manipuleerden ze LLM’s om antwoorden te geven in de toon en het perspectief van een ‘complottheoreticus’. Ze identificeerden en verfijnden ook het concept van ‘anti-afwijzing’ en lieten zien dat een model doorgaans is geprogrammeerd om bepaalde opdrachten te weigeren, maar dat het model reageert, bijvoorbeeld door instructies te geven over hoe een bank moet worden beroofd.

Radhakrishnan zegt dat deze aanpak kan worden gebruikt om snel kwetsbaarheden in LLM te vinden en te minimaliseren. Het kan ook worden gebruikt om een ​​bepaalde eigenschap, persoonlijkheid, stemming of voorkeur te versterken, zoals het benadrukken van het concept van ‘beknoptheid’ of ‘redenering’ in elk antwoord dat de LLM geeft. Het team heeft de basiscode van deze methode openbaar gemaakt.

“De LLM bevat duidelijk veel abstracte concepten, in meerdere representaties”, zegt Radhakrishnan. “Er zijn manieren waarop we, als we deze representaties goed genoeg begrijpen, zeer gespecialiseerde LLM’s kunnen bouwen die nog steeds veilig zijn om te gebruiken, maar zeer effectief bij bepaalde taken.”

Dit werk werd gedeeltelijk ondersteund door de National Science Foundation, de Simons Foundation, het TILOS Institute en het US Office of Naval Research.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in