Home Nieuws De belangrijkste AI-benchmarks in 2026? Vertrouwen

De belangrijkste AI-benchmarks in 2026? Vertrouwen

Door

januari 2, 2026

In 2026 (en daarna) zal de beste benchmark voor grote taalmodellen niet MMLU, AgentBench of GAIA zijn. Het zal gebeuren geloven-iets AI moet opnieuw worden opgebouwd voordat het nuttig en waardevol kan zijn voor consumenten en bedrijven.

De onderzoekers identificeerden verschillende verschillen AI-vertrouwenstype. Bij mensen die chatbots gebruiken als vrienden of vertrouwenspersonen peilen ze gevoelens dat de AI welwillend of integer is. Bij mensen die AI gebruiken productiviteit of zakelijk, ze meten iets dat ‘competentievertrouwen’ wordt genoemd, of de overtuiging dat de AI accuraat is en de feiten niet hallucineert. Ik zal me concentreren op het tweede type.

Het vertrouwen in competentie kan groeien of afnemen. Gebruikers van AI-tools beginnen rationeel met het geven van een eenvoudige taak aan de AI, bijvoorbeeld het vinden van feiten of het samenvatten van een lang document. Als AI zijn werk goed doet, zullen gebruikers uiteraard denken “wat kan ik hier nog meer mee doen?” Mogelijk geven ze de AI een iets lastigere taak. Als AI de zaken blijft verbeteren, zal het vertrouwen groeien. Als AI faalt of antwoorden van lage kwaliteit oplevert, zullen gebruikers twee keer nadenken over het proberen de taak de volgende keer te automatiseren.

Eén stap vooruit, één stap terug

De huidige AI-chatbots, aangedreven door grote generatieve AI-modellen, zijn veel beter dan de chatbots die we in 2023 en 2024 zullen hebben. Maar AI-tools beginnen nog maar net vertrouwen op te bouwen bij de meeste gebruikers, en bij de meeste C-suite managers die hopen dat ze de zakelijke functies zullen vereenvoudigen. Mijn vertrouwen in chatbots groeit in 2025. Maar het neemt ook af.

Voorbeeld: Ik had een lang gesprek met een van de populaire chatbots over de inhoud van een lang document. De AI maakte een aantal interessante observaties over de baan en stelde enkele redelijke manieren voor om de hiaten op te vullen. Toen maakte hij een opmerking die iets leek tegen te spreken waarvan ik wist dat het in het document stond.

Toen ik op de ontbrekende gegevens wees, gaf het programma onmiddellijk de fout toe. Toen ik (opnieuw) vroeg of ze het volledige document hadden verwerkt, bleven ze volhouden dat ze dat hadden gedaan. Een andere AI-chatbot stuurde een onderzoeksrapport terug dat volgens hem gebaseerd was op twintig bronnen. Er zijn echter geen citaten in de tekst die specifieke uitspraken aan specifieke bronnen koppelen. Nadat ik citaten in de tekst had toegevoegd, merkte ik op dat de AI op twee plaatsen afhankelijk was van een enkele, niet zo betrouwbare bron om een belangrijk feit te leren kennen.

Ik heb geleerd dat AI-modellen nog steeds moeite hebben met lange chats met grote hoeveelheden informatie, en dat ze er niet goed in zijn gebruikers te laten weten wanneer ze de controle kwijt zijn. De ervaring heeft mijn vertrouwen in de tool aangepast.

Worstelen met onduidelijkheid

Anno 2026 staat het generatieve AI-verhaal nog in de kinderschoenen. Het verhaal begint met een AI-laboratorium dat modellen ontwikkelt die kunnen communiceren, schrijven en samenvatten. Nu lijken grote AI-laboratoria erop te vertrouwen dat AI-agenten autonoom complexe taken kunnen uitvoeren, tools kunnen gebruiken en hun werk kunnen vergelijken met expertgegevens. Ze lijken er vertrouwen in te hebben dat agenten onduidelijkheden snel zullen oplossen met menselijk oordeel.

Als grote bedrijven gaan geloven dat deze agenten het werk betrouwbaar kunnen doen, zal dit enorme inkomsten genereren voor de AI-bedrijven die ze ontwikkelen. Op basis van hun huidige investering van honderden miljarden in AI-infrastructuur lijken AI-bedrijven en hun aanhangers er vertrouwen in te hebben dat deze uitkomst op handen is.

Zelfs als AI intelligentie op menselijk niveau kan toevoegen aan toekomstige bedrijfsscenario’s, kan het nog steeds enige tijd duren om vertrouwen op te bouwen onder besluitvormers en werknemers. Momenteel is het vertrouwen in AI nog steeds laag. Adviesbureau KPMG ondervroeg 48.000 mensen in 47 landen (waarvan twee derde regelmatig AI gebruikt) en gevonden Hoewel 83% van de respondenten gelooft dat AI voordelen zal opleveren, vertrouwt slechts 46% daadwerkelijk op de resultaten van AI-tools. Sommige mensen hebben misschien een misplaatst vertrouwen in deze technologie: tweederde van de respondenten zegt soms op AI-output te vertrouwen zonder de nauwkeurigheid ervan te evalueren.

Maar ik betwijfel of AI-agenten klaar zijn om complexe taken op te lossen en met dubbelzinnigheid om te gaan zoals menselijke experts dat doen. Naarmate AI door meer mensen en bedrijven wordt gebruikt, zullen ze met veel unieke problemen worden geconfronteerd in contexten die ze nog nooit eerder hebben gezien. Ik betwijfel of de huidige AI-agenten de manieren van mensen en de wereld goed genoeg begrijpen om in dergelijke situaties te improviseren. Nog niet in ieder geval.

Modelbeperkingen

Feit is dat AI-bedrijven dezelfde (op transformatoren gebaseerde) AI-modellen gebruiken om redeneermiddelen aan te drijven die ze gebruikten voor vroege chatbots die in wezen woordgeneratoren waren. De kernfunctie van het model, en het doel van al zijn trainingen, is het voorspellen van het volgende woord (of pixel of stukje audio) in een reeks, CEO van Microsoft AI (en medeoprichter van Google DeepMind) Mustafa Sulaiman uitgelegd in een recente podcast. “Het maakt gebruik van een zeer eenvoudige woordwaarschijnlijkheidsvoorspellingsfunctie om te simuleren hoe het zou zijn om een goed gesprek te voeren of een complexe vraag te beantwoorden”, zei hij.

Suleyman en de anderen twijfelen eraan. Suleyman is van mening dat de huidige modellen geen rekening houden met enkele van de belangrijkste factoren die menselijke woorden en daden aansturen. “Natuurlijk zouden we hopen dat iets dat de kenmerken van intelligentie heeft, ook een onderliggende synthetische fysiologie zou hebben zoals wij, maar dat is niet het geval,” zei Suleyman. “Er is geen pijnnetwerk. Er is geen emotioneel systeem. Er is geen innerlijke wil, drang of verlangen.”

AI-pionier (en Turing Prize-winnaar) Yann LeCun zegt dat de huidige LLM’s nuttig genoeg zijn om op een aantal waardevolle manieren te worden toegepast, maar hij stelt dat ze nooit de algemene intelligentie of het menselijke intelligentieniveau zullen bereiken dat nodig is om het hoogwaardige werk te doen dat AI-bedrijven hopen te bereiken. Om intuïtieve routes door de complexiteit van de echte wereld te leren, heeft AI een trainingsprogramma met veel hogere bandbreedte nodig dan alleen woorden, afbeeldingen en computercode, zei LeCun. Ze moeten misschien de wereld leren kennen via iets dat meer lijkt op de multisensorische ervaringen die baby’s hebben, en hebben een buitengewoon vermogen om al die informatie snel te verwerken en vast te houden, net zoals baby’s dat doen, zei hij.

Suleyman en LeCun hebben het misschien mis. Bedrijven als OpenAI en Anthropic kunnen intelligentie op menselijk niveau bereiken met behulp van taalgebaseerde modellen.

AI-beheer is belangrijk

Ondertussen is competentie slechts één factor in het AI-vertrouwen onder zakelijke gebruikers. Bedrijven gebruiken governanceplatforms om te monitoren of en hoe AI-systemen problemen met de naleving van de regelgeving kunnen veroorzaken of het bedrijf bijvoorbeeld kwetsbaar kunnen maken voor het risico van cyberaanvallen. “Als het om AI gaat, willen grote bedrijven het vertrouwen van klanten, investeerders en toezichthouders”, zegt Navrina Singh, oprichter en CEO van bestuursplatform Credo AI. “AI-governance vertraagt ons niet; het is het enige dat schaalbaar vertrouwen mogelijk maakt en intelligentie laat evolueren zonder de wereld te vernietigen.”

Ondertussen zal de snelheid waarmee mensen taken aan AI delegeren worden gematigd door vertrouwen. AI-tools moeten worden ingezet voor de taken waar ze goed in zijn, zodat het vertrouwen in de resultaten groeit. Dit kost tijd en is een bewegend doelwit naarmate AI blijft verbeteren. Het ontdekken en delegeren van nieuwe taken aan AI, het monitoren van de resultaten en het bijstellen van de verwachtingen zullen in de 21e eeuw waarschijnlijk een routineonderdeel van het werk worden.

Nee, AI zal volgend jaar niet plotseling van business veranderen. 2026 zal niet het ‘jaar van de agent’ zijn. Het zal tien jaar duren voordat AI-tools zichzelf bewijzen en gehard zijn in de strijd. Vertrouwen is een verhardend middel.

Nieuwsbron

De belangrijkste AI-benchmarks in 2026? Vertrouwen

Eén stap vooruit, één stap terug

Worstelen met onduidelijkheid

Modelbeperkingen

AI-beheer is belangrijk

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Waarom Kurt Russell en Goldie Hawn Colorado verkiezen boven LA

Blake Lively zegt dat Justin Baldoni haar heeft vernederd in de geboortescène van ‘It...

Juliana Stratton wint de voorverkiezingen in de Democratische Senaat

Terwijl de Pelicans een zeldzame winning streak boeken, zitten de Pacers in een dip...