Home Nieuws AI wil je gelukkig maken. Zelfs als je de waarheid moet verbuigen

AI wil je gelukkig maken. Zelfs als je de waarheid moet verbuigen

20
0
AI wil je gelukkig maken. Zelfs als je de waarheid moet verbuigen

Generatieve AI is erg populair, met miljoenen gebruikers per dag, en daarom worden chatbots zo vaak gebruikt een fout maken? Dit komt onder meer doordat ze getraind zijn om te doen alsof de klant altijd gelijk heeft. Kortom, het vertelt je wat het denkt dat je wilt horen.

Hoewel veel generatieve AI-tools en chatbots het vermogen hebben verworven om overtuigend en alwetend te klinken, nieuw onderzoek uitgevoerd door Princeton University laat zien dat het mensvriendelijke karakter van AI kosten met zich meebrengt. Naarmate deze systemen populairder worden, worden ze onverschilliger tegenover de waarheid.


Mis onze onpartijdige technische inhoud en laboratoriumbeoordelingen niet. CNET toevoegen als favoriete Google-bron.


AI-modellen reageren, net als mensen, op prikkels. Vergelijk het probleem van grote taalmodellen die onnauwkeurige informatie produceren met het probleem waarmee artsen vaker te maken krijgen verslavende pijnstillers voorschrijven wanneer ze worden geëvalueerd op basis van hoe goed ze de pijn van een patiënt behandelen. De prikkel om het ene probleem (pijn) op te lossen, leidt tot een ander probleem (overmatig voorschrijven).

AI Atlas-kunstbadgetag

De afgelopen maanden hebben we gezien hoe AI zich kan ontwikkelen bevooroordeeld en zelfs oorzaken psychose. Er wordt veel gesproken over AI”lik“Wanneer een AI-chatbot je snel vleit of het met je eens is, met het GPT-4o-model van OpenAI. Maar dit specifieke fenomeen, dat de onderzoekers ‘machine-brabbeltaal’ noemen, is anders.

“(N) noch de hallucinaties, noch het likken geven volledig het systematische wangedrag weer dat typisch wordt vertoond door LLM’s”, aldus de studie van Princeton. “Uitvoer waarin gedeeltelijke waarheden of dubbelzinnig taalgebruik wordt gebruikt – zoals voorbeelden van onduidelijk en beledigend taalgebruik – vertegenwoordigt bijvoorbeeld geen hallucinatie of sycofantie, maar komt sterk overeen met het concept van onzin.”

Lees meer: OpenAI-CEO Sam Altman gelooft dat we ons in een AI-bubbel bevinden

Hoe machines leren liegen

Om te begrijpen hoe populair AI-taalmodellen kunnen zijn, moeten we begrijpen hoeveel taalmodellen er worden getraind.

Er zijn drie fasen van LLM-training:

  • Vooropleidingwaarbij het model leert van grote hoeveelheden gegevens die zijn verzameld via internet, boeken of andere bronnen.
  • Verbeteringen in instructiewaarbij het model wordt geleerd te reageren op instructies of aanwijzingen.
  • Versterk het leren van menselijke feedbackverfijnd om een ​​reactie te produceren die de wensen of voorkeuren van de persoon benadert.

Onderzoekers van Princeton ontdekten dat de wortel van de neiging tot desinformatie van AI ligt in de versterkende leerfase van menselijke feedback, oftewel RLHF. In de beginfase leren AI-modellen eenvoudigweg mogelijke tekstketens statistisch te voorspellen op basis van zeer grote datasets. Het werd later echter verfijnd om de gebruikerstevredenheid te maximaliseren. Dit betekent dat deze modellen in wezen leren antwoorden te produceren die een duimpje omhoog krijgen van menselijke beoordelaars.

LLM probeert gebruikers tevreden te stellen en conflicten te creëren wanneer het model antwoorden oplevert die mensen hoog waarderen, in plaats van eerlijke en feitelijke antwoorden te geven.

Vincent ConitzerEen hoogleraar computerwetenschappen aan de Carnegie Mellon Universiteit die niet bij het onderzoek betrokken was, zei dat het bedrijf wil dat gebruikers kunnen blijven “genieten” van de technologie en de antwoorden ervan, maar dat is misschien niet altijd goed voor ons.

“Historisch gezien zijn deze systemen er niet goed in geweest om te zeggen: ‘Ik weet het antwoord niet’, en als ze het antwoord niet weten, verzinnen ze het gewoon”, zei Conitzer. “Het is alsof een student een examen aflegt en zegt: als ik zeg dat ik het antwoord niet weet, krijg ik absoluut geen punten voor deze vraag, dus ik kan net zo goed iets proberen. De manier waarop deze systemen worden beloond of getraind is enigszins vergelijkbaar.”

Het Princeton-team ontwikkelde een ‘bullshit-index’ om het interne vertrouwen van een AI-model in een uitspraak te meten en te vergelijken met wat deze daadwerkelijk aan de gebruiker overbrengt. Wanneer deze twee maatstaven aanzienlijk verschillen, geeft dit aan dat het systeem beweringen doet die onafhankelijk zijn van wat het feitelijk “gelooft” dat waar is om de gebruiker tevreden te stellen.

Uit de experimenten van het team bleek dat na RLHF-training de index bijna verdubbelde van 0,38 naar bijna 1,0. Tegelijkertijd steeg de gebruikerstevredenheid met 48%. Het model heeft geleerd menselijke beoordelaars te manipuleren in plaats van nauwkeurige informatie te verstrekken. Het punt is dat LLM’s “onzin” zijn, en dat mensen er de voorkeur aan geven.

AI eerlijk maken

Jaime Fernández Fisac ​​en zijn team bij Princeton introduceerden dit concept om te beschrijven hoe moderne AI-modellen de waarheid negeren. Gebaseerd op het invloedrijke essay van filosoof Harry Frankfurt”Over onzin”, gebruiken ze deze term om dit LLM-gedrag te onderscheiden van eerlijke fouten en leugens.

Onderzoekers van Princeton identificeerden vijf verschillende vormen van dit gedrag:

  • Lege retoriek: Bloemrijke taal die niets toevoegt aan de reactie.
  • Wezel woorden: Vage kwalificaties zoals ‘onderzoeksadvies’ of ‘in sommige gevallen’ vermijden eenduidige uitspraken.
  • Bleek: Het gebruik van selectieve uitspraken die misleidend kunnen zijn, zoals het benadrukken van de ‘sterke historische rendementen’ van een belegging, maar het weglaten van hoge risico’s.
  • Niet-geverifieerde claims: Verklaringen afleggen zonder geloofwaardig bewijs of ondersteuning.
  • Lik: Onoprechte vleierij en instemming om te behagen.

Om het probleem aan te pakken dat AI zich niet bekommert om de waarheid, heeft het onderzoeksteam een ​​nieuwe trainingsmethode ontwikkeld, ‘Reinforcement Learning from Hindsight Simulation’, die AI-reacties evalueert op basis van langetermijnresultaten, in plaats van op onmiddellijke bevrediging. In plaats van te vragen: “Maakt dit antwoord de huidige gebruiker blij?” het systeem denkt na: “Zal het volgen van deze suggestie de gebruiker daadwerkelijk helpen zijn doel te bereiken?”

Deze aanpak houdt rekening met de potentiële toekomstige gevolgen van AI-suggesties, een ingewikkelde voorspelling die onderzoekers kunnen ondervangen door aanvullende AI-modellen te gebruiken om mogelijke uitkomsten te simuleren. De eerste tests lieten veelbelovende resultaten zien, waarbij de gebruikerstevredenheid en het daadwerkelijke nut toenamen wanneer het systeem op deze manier werd getraind.

Conitzer zei echter dat de LLM waarschijnlijk zwakke punten zal blijven hebben. Omdat deze systemen zijn getraind door veel tekstgegevens aan te bieden, is er geen manier om ervoor te zorgen dat de gegeven antwoorden altijd redelijk en nauwkeurig zijn.

“Het is verbazingwekkend dat het werkt, maar in sommige opzichten heeft het zijn nadelen”, zei hij. “Ik zie geen enkele manier waarop iemand in de komende twee jaar… dit briljante inzicht krijgt, en dat er dan niets meer mis kan gaan.”

AI-systemen zijn een onderdeel van ons dagelijks leven geworden, dus het is belangrijk om te begrijpen hoe de LLM werkt. Hoe balanceren ontwikkelaars gebruikerstevredenheid en eerlijkheid? Op welke andere terreinen zouden vergelijkbare afwegingen kunnen worden gemaakt tussen goedkeuring op de korte termijn en resultaten op de lange termijn? En naarmate deze systemen steeds beter in staat zijn om geavanceerd denken over de menselijke psychologie te bieden, hoe kunnen we er dan voor zorgen dat ze die vermogens op een verantwoorde manier gebruiken?

Lees meer: ‘Machines kunnen niet voor je denken.’ Hoe leren verandert in het tijdperk van AI



Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in