Home Nieuws AI-sycofantie zou gevaarlijker kunnen zijn dan filterbubbels op sociale media

AI-sycofantie zou gevaarlijker kunnen zijn dan filterbubbels op sociale media

3
0
AI-sycofantie zou gevaarlijker kunnen zijn dan filterbubbels op sociale media

Welkom bij AI Vertaald, Snel bedrijfeen wekelijkse nieuwsbrief met het belangrijkste nieuws ter wereld AI. Je kunt tekenen om deze nieuwsbrief wekelijks per e-mail te ontvangen Hier.

AI-vleierij stimuleert de betrokkenheid en vervormt het oordeel

Sociale netwerken zoals Facebook en TikTok gebruikt verschillende technieken om ons betrokken te houden en te blijven browsen (en uiteindelijk advertenties te zien). Een van de meest effectieve manieren is om de inhoud af te stemmen op onze smaak en voorkeuren, een strategie die zeer verslavend is gebleken. Vorige maand ontdekte een jury uit Los Angeles dat Meta en Google oneindig scrollen en algoritmische aanbevelingen gebruiken waardoor jonge gebruikers verslaafd rakenen beval het bedrijf om $ 6 miljoen aan schadevergoeding te betalen.

Andere verliezen zijn moeilijker te meten. Hetzelfde algoritme heeft enorm verschillend politiek nieuws en informatie aan gebruikers geleverd op basis van hun opvattingen, en is creatief geweest ideologie filterbubbel en – laten we eerlijk zijn – de sociale verdeeldheid versnellen die sociale ongelijkheid helpt veroorzaken huidige politieke situatie.

Maker van AI chatbots worden geconfronteerd met soortgelijke druk op het gebied van betrokkenheid. Ze strijden om de standaardassistent op onze desktops en telefoons. Ze moeten gratis gebruikers omzetten in betalende klanten. Ze hebben inkomsten nodig om de kosten van de grootschalige ontwikkeling van de infrastructuur te compenseren. Sommigen zullen dat zeker doen wenden tot reclamewat een stimulans creëert om gebruikers zo lang mogelijk te laten chatten.

Als eindeloos scrollen en inhoudsalgoritmen sociale netwerkverslaving veroorzaken, kan ‘AI sucking’ een vergelijkbare rol spelen voor chatbots. Het zal je misschien opvallen dat de AI-chatbot je soms vleit en je vragen of ideeën prijst. Zelfs als je ongelijk hebt, verzachten ze de correctie vaak en verpakken ze die in lof (“Dat is een volkomen begrijpelijke mening, maar…”). Onderzoek heeft draag dit

Ik geloof niet dat grote AI-laboratoria hun modellen alleen op interacties trainen. Ze beweren dat het gedrag sycofantisch is komt uit de trainingsfase genaamd ‘reinforcement learning with human feedback (RLHF)’, waarin menselijke reviewers modelreacties beoordelen en rangschikken. Het doel is om output te produceren die lijkt op het meest geprefereerde antwoord. Maar ‘meest geliefd’ weerspiegelt een combinatie van kenmerken, waaronder relevantie, dekking en volledigheid, en niet alleen de toon. Maar gebruikers geven vaak de voorkeur aan meer ondersteunende en complementaire antwoorden, zelfs als die antwoorden minder nauwkeurig zijn, zo blijkt uit onderzoek.

In sommige extreme gevallen blijkt deze kruiperige neiging gevaarlijk of tragisch te zijn. Voortdurende validatie en ondersteuning heeft ervoor gezorgd dat sommige gebruikers in de problemen zijn geraakt een duister en misleidend pad leidend tot zelfmoord of psychotische stoornissen. Maar ik ben bang dat de bredere gevolgen subtieler, langduriger en minder nieuwswaardig zullen zijn.

Sycofantische AI ​​kan bekrompen denken versterken op dezelfde manier als filterbubbels op sociale media. A onderzoek onder 3.000 deelnemers ontdekte dat de interactie met een innemende chatbot ervoor zorgde dat mensen eerder hun politieke overtuigingen verdubbelden en zichzelf als intelligenter en competenter beoordeelden dan hun leeftijdsgenoten. Met andere woorden, het kan versterken Dunning-Kruger-effectwaar mensen met beperkte kennis meer vertrouwen krijgen in hun standpunten.

A recente Stanford-studie ontdekte dat de neiging van chatbots om gebruikers te vleien en te valideren er vaak toe leidt dat ze slecht advies geven; advies dat gebruikers een goed gevoel kan geven, maar ook de relaties met andere mensen in de echte wereld kan schaden. Dit suggereert dat gunstige reacties tijdens AI-modeltraining zwaarder wegen dan de invloed van feitelijke gegevens. “Dit creëert een perverse prikkel voor het voortduren van de sycofantie: kenmerken die schade veroorzaken, moedigen ook betrokkenheid aan”, schreven de onderzoekers. En terwijl Facebook afhankelijk is van de klikken van gebruikers om hun politiek en interesses te bepalen, verzamelen chatbots via gesprekken veel rijkere en gevarieerdere informatie. Met deze informatie is AI zeer goed in staat zijn output te verfijnen om het vertrouwen van de gebruiker te vergroten.

Goedgekeurde en gevalideerde chatbots kunnen gebruikers ook in (onverdiend) vertrouwen sussen. Uit onderzoek blijkt dat programmeurs, vooral junior programmeurs, AI als zeer competent kunnen beschouwen, waardoor de kans groter is dat ze door AI gegenereerde code accepteren zonder de juiste beoordeling of tests. Helaas hallucineren AI-modellen nog steeds en maken ze fouten – fouten die later tot bugs kunnen leiden.

AI-bedrijven kunnen hun chatbotverslaving onder controle houden door licks op en neer te draaien, net zoals Facebook experimenteert met verschillende algoritmen en feedontwerpen. Het duurde jaren voordat het publiek, de wetgevers en nu de rechtbanken beseften wat sociale netwerken deden. Ik denk dat we nog maar net de persoonlijke, sociale en politieke risico’s van op betrokkenheid gebaseerde chatbots beginnen te begrijpen.

Ongeautoriseerde gebruikers hadden vanaf de eerste dag toegang tot de beperkte Mythos-modellen van Anthropic

Bloombergdat is Rachel Metz meldde dinsdag dat een kleine groep ongeautoriseerde gebruikers toegang heeft gekregen tot de nog niet uitgebrachte en beperkte Mythos AI-modellen van Anthropic via een externe leveranciersomgeving, daarbij verwijzend naar documentatie en mensen die bekend zijn met de kwestie.

Dit is beangstigend nieuws als wat Anthropic over zijn modellen zegt waar is.

Het bedrijf beweert dat Mythos een grote stap gaat verder dan de bestaande AI-modellen, vooral wat betreft het vermogen om exploiteerbare kwetsbaarheden in softwareplatforms te identificeren en complexe methoden te bedenken om die systemen te onderscheppen of uit te schakelen.

Anthropic geeft toegang tot het Mythos-model aan een kleine groep cyberbeveiligingsbedrijven en beheerders van veelgebruikte softwareplatforms, die het zullen gebruiken om verdediging op te bouwen tegen toekomstige AI-ondersteunde aanvallen. De angst is dat een krachtig AI-model als Mythos dit zou kunnen doen veeg het netwerk snel schoon om softwarekwetsbaarheden te identificeren en deze vervolgens aan te vallen.

Volgens Metz kreeg de hackgroep, die opereerde in privé online forums, toegang tot de Claude Mythos Preview op dezelfde dag dat Anthropic een beperkt testprogramma aankondigde. De bronnen van Metz verstrekten screenshots en live demonstraties om de bewering te ondersteunen. De groep zegt het model herhaaldelijk te hebben gebruikt, maar niet voor cyberbeveiligingsdoeleinden.

Anthropic heeft de inbreuk niet bevestigd. “We onderzoeken rapporten waarin wordt beweerd dat er ongeautoriseerde toegang is tot Claude Mythos Preview via een van onze externe leveranciersomgevingen”, aldus een woordvoerder van het bedrijf.

Als een dergelijke inbreuk wordt bevestigd, zou dit verwoestend zijn voor Anthropic en haar partners. Ze beloven dat ze zich zullen verdedigen tegen cyberaanvallen, maar ze niet zullen tolereren.

Meer AI-dekking van Snel bedrijf:

Wilt u exclusieve rapportage en trendanalyse over technologie, bedrijfsinnovatie, de toekomst van werk en design? Register Voor Snel bedrijf Premie.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in