chatbot echt indrukwekkend als je hem het ziet doen dingen waar ze goed in zijnzoals het schrijven van een basis e-mail of het creëren van vreemde, futuristisch ogende beelden. Maar vraag generatieve AI om een van de puzzels achter kranten op te lossen, en de zaken zullen in de war raken.
Dat ontdekten onderzoekers van de Universiteit van Colorado in Boulder toen ze een groot taalmodel voor het oplossen van sudoku uitdaagden. En niet eens standaard 9×9-puzzels. Gemakkelijkere 6×6-puzzels vallen vaak buiten de mogelijkheden van LLM’s zonder hulp van buitenaf (in dit geval speciale hulpmiddelen voor het oplossen van puzzels).
Belangrijkere bevindingen kwamen naar voren toen de modellen werd gevraagd hun werk te laten zien. Voor het grootste deel kunnen ze dat niet. Soms liegen ze. Soms leggen ze dingen uit op een manier die nergens op slaat. Soms zijn ze dat ook hallucinerend en begon over het weer te praten.
Als AI-gentools hun beslissingen niet nauwkeurig of transparant kunnen verklaren, moeten we voorzichtig zijn omdat we deze dingen meer controle over ons leven en onze beslissingen geven, zegt Ashutosh Trivedi, hoogleraar computerwetenschappen aan de Universiteit van Colorado in Boulder en een van de auteurs van het onderzoek. papier gepubliceerd in juli in Findings of the Association for Computational Linguistics.
“We willen echt dat die verklaringen transparant zijn en weerspiegelen waarom de AI deze beslissingen heeft genomen, en niet de AI die mensen probeert te manipuleren door verklaringen te geven die mensen misschien leuk vinden”, zei Trivedi.
Mis onze onpartijdige technische inhoud en laboratoriumbeoordelingen niet. CNET toevoegen als favoriete Google-bron.
Dit artikel maakt deel uit van een groeiend onderzoek naar het gedrag van grote taalmodellen. Uit ander recent onderzoek blijkt bijvoorbeeld dat modellen gedeeltelijk hallucineren omdat trainingsprocedures hen stimuleren om te produceren resultaten waar gebruikers de voorkeur aan gevengeen nauwkeurige, of mensen die een LLM gebruiken om hen te helpen essays te schrijven minder snel onthouden wat ze schreven. Nu AI-gen steeds meer een onderdeel wordt van ons dagelijks leven, worden de implicaties voor de manier waarop deze technologie werkt en ons gedrag bij het gebruik ervan steeds belangrijker.
Wanneer u een beslissing neemt, kunt u proberen deze te rechtvaardigen of op zijn minst uitleggen hoe u tot de beslissing bent gekomen. AI-modellen zijn mogelijk niet in staat om dezelfde dingen nauwkeurig en transparant te doen. Geloof je het?
Bekijk dit: Ik heb vanaf nul een AI-pc gebouwd
Waarom LLM’s worstelen met sudoku
We hebben AI-modellen eerder zien falen in basisspellen en puzzels. OpenAI’s ChatGPT (onder andere) heeft dat volledig vernietigd bij het schaken door een computertegenstander in een Atari-spel uit 1979. Uit een recent onderzoeksartikel van Apple bleek dat het model op problemen zou kunnen stuiten andere puzzels, zoals de Toren van Hanoi.
Dit heeft te maken met de manier waarop LLM’s werken en het opvullen van informatielacunes. Deze modellen proberen deze gaten op te vullen op basis van wat er in vergelijkbare gevallen is gebeurd in hun trainingsgegevens of andere dingen die ze in het verleden hebben gezien. Bij sudoku zijn de vragen logisch. De AI kan proberen elke leemte opeenvolgend in te vullen, op basis van antwoorden die redelijk lijken, maar om het correct op te lossen moet de AI naar het hele plaatje kijken en een logische volgorde vinden die van puzzel tot puzzel verandert.
Lees meer: 29 manieren om Gen AI voor u te laten werken, volgens onze experts
Chatbots zijn om dezelfde reden slecht in schaken. Ze vinden de logische volgende zet, maar denken niet altijd drie, vier of vijf zetten vooruit; een basisvaardigheid die nodig is om goed te kunnen schaken. Chatbots hebben soms ook de neiging om schaakstukken te verplaatsen op een manier die niet echt aan de regels voldoet, of om stukken in zinloos gevaar te brengen.
Je zou verwachten dat LLM’s sudoku’s kunnen oplossen omdat het computers zijn en de puzzels uit cijfers bestaan, maar de puzzels zelf zijn niet echt wiskundig; het is symbolisch. “Sudoku is vooral bekend als een getallenpuzzel die met iets anders dan getallen kan worden opgelost”, zegt Fabio Somenzi, een professor aan de CU en een van de auteurs van het onderzoeksartikel.
Ik heb een voorbeeldprompt uit het artikel van een onderzoeker gebruikt en deze aan ChatGPT verstrekt. De tool liet me zien hoe het werkte en vertelde me herhaaldelijk dat het het antwoord had voordat hij me een puzzel liet zien die niet werkte, en vervolgens terugging om het te repareren. Het lijkt erop dat de bot een presentatie afspeelt die op het laatste moment steeds wordt bewerkt: dit is het definitieve antwoord. Nee, eigenlijk maakt het niet uit, Dit was het uiteindelijke antwoord. Uiteindelijk kreeg hij het antwoord, met vallen en opstaan. Maar vallen en opstaan is voor iemand geen praktische manier om sudoku in de krant op te lossen. Het neemt te veel weg en bederft de pret.
AI en robots kunnen experts in games worden als ze zijn gebouwd om ze te spelen, maar tools voor algemeen gebruik, zoals grote taalmodellen, kunnen moeite hebben met het oplossen van logische puzzels.
AI heeft moeite om zijn werk te laten zien
De Colorado-onderzoekers wilden niet alleen kijken of bots de puzzel konden oplossen. Via hen vragen ze om uitleg over hoe de bot werkt. Het ging niet goed.
Bij het testen van OpenAI’s o1-preview redeneermodel merkten onderzoekers dat de verklaringen ervan – zelfs voor correct opgeloste puzzels – hun zetten niet nauwkeurig uitlegden of rechtvaardigden en onjuiste onderliggende termen bevatten.
“Eén ding waar ze goed in zijn, is het geven van zinvolle uitleg”, zegt Maria Pacheco, universitair docent computerwetenschappen aan de CU. “Ze zijn afgestemd op mensen, dus leren ze praten zoals wij dat willen, maar of ze trouw zijn aan de daadwerkelijke stappen die nodig zijn om dit probleem op te lossen, is waar we een beetje moeite mee hebben.”
Soms is de verklaring volkomen irrelevant. Sinds dit artikel is voltooid, zijn onderzoekers doorgegaan met het testen van nieuw uitgebrachte modellen. Somenzi zei dat toen hij en Trivedi OpenAI’s o4-redeneermodel door dezelfde tests lieten gaan, het model op een gegeven moment het helemaal leek op te geven.
“De volgende vraag die we stelden, was de weersvoorspelling van Denver”, zei hij.
(Openbaarmaking: Ziff Davis, het moederbedrijf van CNET, heeft in april een rechtszaak aangespannen tegen OpenAI en beschuldigd van het schenden van de auteursrechten van Ziff Davis op de training en werking van zijn AI-systeem.)
Betere modellen zijn in belangrijke opzichten nog steeds slecht
Onderzoekers in Colorado zijn niet de enigen die taalmodellen uitdagen met sudoku. Sakana AI test sinds mei hoe effectief verschillende modellen zijn bij het oplossen van puzzels. Hij klassement laat zien dat nieuwere modellen, vooral OpenAI’s GPT-5, veel betere voltooiingspercentages hebben dan hun voorgangers. GPT-5 was de eerste in deze test die een variant van het moderne 9×9 sudoku-probleem oploste, genaamd Theta. LLM’s worstelen echter met feitelijk redeneren, vergeleken met het oplossen van computerproblemen, schreven de Sakana-onderzoekers in a blogpost. “Hoewel GPT-5 indrukwekkende wiskundige redeneercapaciteiten en mensachtig strategisch denken laat zien over algebraïsch beperkte puzzels, worstelt het aanzienlijk met uitdagingen op het gebied van ruimtelijk redeneren die ruimtelijk inzicht vereisen”, schreven ze.
Het Colorado-onderzoeksteam ontdekte ook dat GPT-5 een “belangrijke stap voorwaarts” was, maar nog steeds niet erg goed in het oplossen van sudoku. GPT-5 is nog steeds slecht in het uitleggen hoe de oplossing werkt, zeggen ze. In één test ontdekte het Colorado-team dat het model uitlegde dat het getallen in de puzzel plaatste die al in de puzzel stonden, zoals ze zouden moeten.
“Over het geheel genomen blijven onze conclusies uit het eerste onderzoek in wezen ongewijzigd: er is vooruitgang geboekt op het gebied van het ruwe oplossingsvermogen, maar nog niet op het gebied van betrouwbare stapsgewijze verklaringen”, aldus het Colorado-team in een e-mail.
Jezelf uitleggen is een belangrijke vaardigheid
Als je een puzzel oplost, kun je vrijwel zeker anderen begeleiden in hun denken. Het feit dat deze LLM’s zo spectaculair falen in basiswerk is geen triviale zaak. Nu AI-bedrijven voortdurend praten over “AI-agent” die namens u actie kan ondernemen, is het van cruciaal belang dat u uzelf kunt uitleggen.
Denk eens na over de soorten banen die momenteel aan AI zijn toegewezen of die in de nabije toekomst gepland staan: verhuizer, belastingen doenhet bepalen van bedrijfsstrategieën en het vertalen van belangrijke documenten. Stel je voor wat er zou gebeuren als jij, iemand, een van die dingen zou doen en er iets mis zou gaan.
“Als mensen hun gezicht voor hun beslissingen moeten plaatsen, zijn ze beter in staat uit te leggen wat tot die beslissingen heeft geleid,” zei Somenzi.
Het gaat niet alleen om het krijgen van een redelijk antwoord. Het moet nauwkeurig zijn. Op een dag zal het verhaal van een AI over zichzelf in de rechtbank stand moeten houden, maar hoe kan zijn getuigenis serieus worden genomen als blijkt dat het liegt? Je zou iemand niet vertrouwen die er niet in slaagde zichzelf uit te leggen, en je zou ook niet iemand vertrouwen die je vertelde wat je wilde horen, en niet de waarheid.
“Het hebben van een verklaring lijkt sterk op manipulatie als het om de verkeerde redenen wordt gedaan,” zei Trivedi. “We moeten heel voorzichtig zijn met de transparantie van deze verklaringen.”


