Home Nieuws De feitelijkheidsdrempel van 70%: waarom de nieuwe ‘FACTS’-benchmark van Google een waarschuwing...

De feitelijkheidsdrempel van 70%: waarom de nieuwe ‘FACTS’-benchmark van Google een waarschuwing is voor zakelijke AI

13
0
De feitelijkheidsdrempel van 70%: waarom de nieuwe ‘FACTS’-benchmark van Google een waarschuwing is voor zakelijke AI

Er is geen tekort aan generatieve AI-benchmarks die zijn ontworpen om de prestaties en nauwkeurigheid van een bepaald model te meten bij het oplossen van een verscheidenheid aan nuttige bedrijfstaken – van codering naar volgende instructies naar surfen op het web van de agent En gebruik van gereedschap. Maar veel van deze benchmarks hebben één grote tekortkoming: ze meten het vermogen van AI om specifieke problemen en verzoeken op te lossen, en niet hoe echt het model ligt in zijn output – hoe goed het correcte en objectieve informatie produceert met betrekking tot gegevens uit de echte wereld – vooral als het gaat om informatie in afbeeldingen of grafische afbeeldingen.

Voor sectoren die prioriteit geven aan nauwkeurigheid – juridisch, financieel en medisch – ontbreekt een gestandaardiseerde manier van meten feitelijkheid is een kritische blinde vlek geworden.

Dat is nu aan het veranderen: het FACTS-team van Google en zijn data science-eenheid Kaggle heeft de FACTS Benchmark Suite uitgebracht, een uitgebreid evaluatiekader ontworpen om deze kloof te dichten.

Wat gerelateerd is onderzoekspapier onthulde een meer gedifferentieerde definitie van het probleem, door ‘factualiteit’ te verdelen in twee verschillende operationele scenario’s: ‘contextuele feitelijkheid’ (antwoorden baseren op verstrekte gegevens) en ‘feitelijkheid van wereldkennis’ (informatie ophalen uit het geheugen of het web).

Terwijl de kop de plaatsing van de Gemini 3 Pro op het hoogste niveau is, is het diepere verhaal voor de makers de branchebrede ‘muur van feitelijkheid’.

Op basis van voorlopige resultaten heeft geen enkel model – inclusief de Gemini 3 Pro, GPT-5 of Claude 4.5 Opus – een nauwkeurigheidsscore van 70% behaald voor de hele probleemset. Voor technische leiders is dit een signaal: het tijdperk van ‘vertrouwen maar verifiëren’ is nog lang niet voorbij.

Het deconstrueren van benchmarking

De FACTS-serie is meer dan alleen simpele vragen en antwoorden. Het bestaat uit vier verschillende tests, die elk een andere real-world faalmodus simuleren die ontwikkelaars tegenkomen in de productie:

  1. Parametrische benchmarking (interne kennis): Kan een model trivia-achtige vragen nauwkeurig beantwoorden met alleen de trainingsgegevens?

  2. Zoekbenchmarks (gebruik van tools): Kan het model effectief gebruik maken van webbrowsertools om live-informatie op te halen en te synthetiseren?

  3. Multimodale benchmark (visie): Kan het model grafieken, diagrammen en afbeeldingen nauwkeurig interpreteren zonder te hallucineren?

  4. Grounding v2-benchmarks (context): Kan het model vasthouden aan de aangeleverde brontekst?

Google heeft 3.513 voorbeelden vrijgegeven aan het publiek, terwijl Kaggle de dataset privé houdt om te voorkomen dat ontwikkelaars gaan trainen op testgegevens – een veel voorkomend probleem dat bekend staat als ‘besmetting’.

Leaderboard: Spel van Inches

Deze eerste tests plaatsten Gemini 3 Pro als leider met een uitgebreide FACTS-score van 68,8%, gevolgd door Gemini 2.5 Pro (62,1%) en OpenAI GPT-5 (61,8%).

Model

FEIT-score (gemiddeld)

Zoeken (RAG-mogelijkheid)

Multimodaal (Visie)

Tweeling 3 Pro

68,8

83,8

46.1

Tweeling 2.5 Pro

62.1

63,9

46,9

GPT-5

61,8

77,7

44.1

Grok 4

53,6

75,3

25.7

Sluit 4.5 Taken

51.3

73,2

39.2

Gegevens afkomstig uit de releaseopmerkingen van het FACTS-team.

Voor bouwers: de “zoek”- versus internetkloof “parametrisch”.

Voor ontwikkelaars die RAG-systemen (Retrieval-Augmented Generation) bouwen, zijn zoekbenchmarks de belangrijkste statistieken.

De gegevens laten een groot verschil zien tussen het vermogen van een model om iets te ‘weten’ (Parametrics) en het vermogen van een model om iets te ‘vinden’ (Search). De Gemini 3 Pro scoorde bijvoorbeeld een hoge score van 83,8% op de zoektaak, maar slechts 76,4% op de parametrische taak.

Dit valideert de huidige architectuurstandaard voor ondernemingen: vertrouw niet op het interne geheugen van het model voor belangrijke feiten.

Als u een interne kennisbot bouwt, laten de FACTS-resultaten zien dat het koppelen van uw model aan een zoekfunctie of vectordatabase geen optie is; het is de enige manier om de nauwkeurigheid naar aanvaardbare productieniveaus te brengen.

Multimodale waarschuwingen

Het datapunt dat productmanagers het meest zorgen baart, is de multimodale taakuitvoering. De scores zijn hier over het algemeen laag. Zelfs de leider in de categorie, de Gemini 2.5 Pro, behaalde slechts een nauwkeurigheid van 46,9%.

Benchmarktaken omvatten het lezen van grafieken, het interpreteren van diagrammen en het identificeren van objecten in de natuur. Met een nauwkeurigheid van minder dan 50% laat dit zien dat multimodale AI nog niet klaar is voor gegevensextractie zonder toezicht.

Het belangrijkste is: Als uw productroadmap inhoudt dat AI automatisch gegevens uit facturen haalt of financiële grafieken interpreteert zonder directe beoordeling, U kunt een aanzienlijk foutenpercentage oplopen in uw pijplijn.

Waarom dit belangrijk is voor uw stapel

De FACTS Benchmark zal waarschijnlijk een standaard referentie worden bij aanbestedingen. Bij het evalueren van modellen voor zakelijk gebruik moeten technische leiders verder kijken dan de verzamelde scores en zoeken naar specifieke sub-benchmarks die overeenkomen met hun gebruiksscenario’s:

  • Een klantenondersteuningsbot bouwen? Bekijk de Grounding-score om ervoor te zorgen dat bots zich aan uw beleidsdocumenten houden. (De Gemini 2.5 Pro verslaat hier eigenlijk de Gemini 3 Pro, 74,2 versus 69,0).

  • Een onderzoeksassistentschap opbouwen? Geef prioriteit aan zoekscores.

  • Een beeldanalysetool bouwen? Ga uiterst voorzichtig te werk.

Zoals het FACTS-team in zijn publicatie opmerkte: “Alle geëvalueerde modellen behaalden een algehele nauwkeurigheid van minder dan 70%, waardoor er aanzienlijke ruimte overblijft voor toekomstige vooruitgang.” Voorlopig is de boodschap aan de industrie duidelijk: de modellen worden slimmer, maar ze zijn niet perfect. Ontwerp uw systeem in de veronderstelling dat het ruwe model in ongeveer een derde van de gevallen waarschijnlijk fout zal zijn.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in