Home Nieuws Databricks’ OfficeQA ontdekt een kloof: de AI-agent slaagt in abstract testen, maar...

Databricks’ OfficeQA ontdekt een kloof: de AI-agent slaagt in abstract testen, maar blijft steken op 45% op bedrijfsdocumenten

9
0
Databricks’ OfficeQA ontdekt een kloof: de AI-agent slaagt in abstract testen, maar blijft steken op 45% op bedrijfsdocumenten

Er is tegenwoordig geen tekort aan AI-benchmarks op de markt, met populaire keuzes zoals De laatste test van de mensheid (HLE), ARC-AGI-2 en GDPval, en vele anderen.

AI-agenten blinken uit in het oplossen van abstracte wiskundige problemen en het behalen van de examens op PhD-niveau waarop de meeste benchmarks zijn gebaseerd, maar Databricks heeft een vraag voor bedrijven: kunnen ze echt het zware werk aan dat veel papierwerk vereist?

Het antwoord is volgens nieuw onderzoek van databedrijven en AI-platforms serieus. Zelfs de best presterende AI-agenten bereiken een nauwkeurigheid van minder dan 45% bij taken die de werkelijke werklast van de onderneming weerspiegelen, waardoor een kritische kloof wordt blootgelegd tussen academische benchmarks en de zakelijke realiteit.

“Als we onze onderzoeksinspanningen richten op het verbeteren van (bestaande benchmarks), lossen we mogelijk niet de juiste problemen op om van Databricks een beter platform te maken”, legt Erich Elsen, hoofdonderzoeker bij Databricks, uit aan VentureBeat. “Dus daarom zijn we op zoek. Hoe creëren we benchmarks die, als we beter worden, we ook daadwerkelijk beter worden in het oplossen van de problemen waarmee onze klanten worden geconfronteerd?”

Het resultaat is OfficeQA, een benchmark die is ontworpen om AI-agents te testen op basis van een fundamenteel uitgangspunt: het beantwoorden van vragen op basis van complexe eigen datasets met ongestructureerde documenten en tabelgegevens. In tegenstelling tot bestaande benchmarks die zich richten op abstracte mogelijkheden, vertegenwoordigt OfficeQA economisch waardevolle taken die daadwerkelijk door bedrijven worden uitgevoerd.

Waarom academische benchmarks niet overeenkomen met de bedrijfsnormen

Volgens Elsen kleven er vanuit ondernemingsperspectief veel nadelen aan populaire AI-benchmarks.

HLE biedt vragen die expertise op PhD-niveau vereisen op verschillende gebieden. ARC-AGI evalueert abstract redeneren door visuele manipulatie van gekleurde rasters. Beide verleggen de grenzen van wat AI kan doen, maar weerspiegelen niet het dagelijkse werk van bedrijven. Zelfs GDPval, dat speciaal in het leven werd geroepen om economisch nuttige taken te evalueren, schoot tekort.

“We hebben een behoorlijk zware wetenschappelijke of technische achtergrond, en soms maken we evaluaties die dat weerspiegelen”, zei Elsen. “Ze stellen dus hoge eisen aan de wiskunde, wat een grote en nuttige taak is, maar het verleggen van de grenzen van de menselijke wiskunde is niet wat klanten proberen te doen met Databricks.”

Hoewel AI doorgaans wordt gebruikt voor klantondersteuning en codeertoepassingen, heeft het klantenbestand van Databricks een bredere reeks vereisten. Elsen merkte op dat het beantwoorden van vragen over een document of een verzameling documenten een veel voorkomende bedrijfstaak is. Dit vereist het ontleden van complexe tabellen met geneste kopteksten, het ophalen van informatie uit tientallen of honderden documenten en het uitvoeren van berekeningen waarbij een fout van één cijfer ervoor kan zorgen dat een organisatie de verkeerde zakelijke beslissing neemt.

Stel benchmarks vast die de complexiteit van bedrijfsdocumenten weerspiegelen

Om een ​​zinvolle test van gefundeerd redeneervermogen te kunnen maken, had Databricks een dataset nodig die de rommelige realiteit van bedrijfsdocumentcorpora benaderde, maar vrij beschikbaar bleef voor onderzoek. Het team las het US Treasury Bulletin, dat vanaf 1939 vijf decennia lang maandelijks werd gepubliceerd en daarna elk kwartaal.

Treasury Bulletin controleert elk vakje op de complexiteit van bedrijfsdocumenten. Elk bulletin is 100 tot 200 pagina’s lang en bestaat uit proza, complexe tabellen, grafieken en cijfers die de activiteiten van het ministerie van Financiën verklaren: waar federaal geld vandaan komt, waar het naartoe gaat en hoe het overheidsoperaties financiert. Dit corpus beslaat ongeveer 89.000 pagina’s verspreid over acht decennia. Tot 1996 waren bulletins scans van fysieke documenten; daarna wordt de PDF digitaal geproduceerd. USAFacts, een organisatie met als missie ‘overheidsgegevens toegankelijker en begrijpelijker te maken’, werkte samen met Databricks om de benchmark te ontwikkelen, waarbij Treasury Bulletin als ideaal werd geïdentificeerd en ervoor werd gezorgd dat de vragen realistische gebruiksscenario’s weerspiegelden.

Voor de 246 vragen waren agenten nodig om rommelige documentuitdagingen in de echte wereld aan te pakken: gescande afbeeldingen, hiërarchische tabelstructuren, tijdelijke gegevens die meerdere rapporten omvatten, en de behoefte aan externe kennis zoals inflatieaanpassingen. Vragen variëren van eenvoudige zoekacties naar waarden tot meerstapsanalyses waarvoor statistische berekeningen en vergelijkingen over de jaren heen nodig zijn.

Om ervoor te zorgen dat benchmarks moeten worden opgehaald op basis van daadwerkelijke documenten, filtert Databricks vragen die LLM kan beantwoorden met behulp van alleen parametrische kennis of zoekopdrachten op internet. Dit elimineert eenvoudigere vragen en een aantal zeer complexe vragen waarbij het model gebruikmaakt van historische financiële gegevens die tijdens de pre-training zijn opgeslagen.

Elke vraag heeft een gevalideerd grondwaarheidsantwoord (meestal een getal, soms een datum of een kleine lijst), waardoor automatische evaluatie zonder menselijk oordeel mogelijk is. Deze ontwerpkeuze is belangrijk: het maakt een versterkende leerbenadering (RL) mogelijk die verifieerbare beloningen vereist, vergelijkbaar met de manier waarop modellen codeerproblemen trainen.

De huidige prestaties laten fundamentele hiaten zien

Databricks heeft de Claude Opus Agent 4.5 (met behulp van de Claude SDK) en de GPT-5.1 Agent (met behulp van de OpenAI File Search API) getest. Deze resultaten zouden een pauze moeten inblazen voor elk bedrijf dat sterk afhankelijk is van de bestaande mogelijkheden van agenten.

Wanneer u een onbewerkt PDF-document krijgt:

De prestaties verbeteren echter aanzienlijk wanneer deze worden geleverd met een vooraf geparseerde versie van de pagina met behulp van Databricks. ai_parse_documentsuggereert dat de slechte onbewerkte PDF-prestaties voortkomen uit het feit dat de LLM API moeite heeft met parseren in plaats van redeneren. Zelfs met de ontlede documenten laten experimenten nog steeds ruimte voor verbetering zien.

Wanneer een document wordt geparseerd met behulp van Databricks ai_parse_document:

Drie bevindingen zijn van belang voor implementatie in bedrijven

Deze tests identificeerden belangrijke inzichten voor praktijkmensen:

Parseren blijft een fundamenteel knelpunt: Complexe tabellen met geneste kopteksten, samengevoegde cellen en ongebruikelijke opmaak produceren vaak verkeerd uitgelijnde waarden. Zelfs als de agent de juiste orakelpagina kreeg, kampte hij vooral met parseerfouten, ook al verbeterden de prestaties twee keer zo goed met vooraf geparseerde documenten.

Documentversiebeheer zorgt voor dubbelzinnigheid: Financiële en regelgevende documenten worden herzien en opnieuw gepubliceerd, wat betekent dat er meerdere geldige antwoorden zijn, afhankelijk van de publicatiedatum. Agenten stoppen vaak met zoeken zodra ze een redelijk antwoord hebben gevonden, waardoor ze meer gezaghebbende bronnen mislopen.

Visueel redeneren is een leemte: Ongeveer 3% van de vragen vereist interpretatie van diagrammen of grafieken, waar de huidige agenten consequent niet in slagen. Voor bedrijven waarvan de datavisualisaties belangrijke inzichten overbrengen, betekent dit een aanzienlijke beperking van de mogelijkheden.

Hoe bedrijven OfficeQA kunnen gebruiken

Dit benchmarkontwerp maakt specifieke verbeteringstrajecten mogelijk die verder gaan dan een eenvoudige beoordeling.

“Omdat je het juiste antwoord kunt zien, kun je gemakkelijk bepalen of de fout door het parseren is veroorzaakt”, legt Elsen uit.

Deze automatische evaluatie maakt snelle iteratie van het parseren van de pijplijn mogelijk. Geverifieerde grondwaarheidsantwoorden maken ook RL-training mogelijk, vergelijkbaar met codeerbenchmarks, omdat er geen menselijk oordeel vereist is.

Elsen zei dat de benchmark een “zeer sterk feedbacksignaal” biedt voor ontwikkelaars die aan zoekoplossingen werken. Hij waarschuwt er echter voor om het niet als trainingsgegevens te behandelen.

“In ieder geval in mijn verbeelding is het doel van het vrijgeven hiervan meer een evaluatie en niet als een bron van ruwe trainingsgegevens”, zei hij. “Als u in deze omgeving te specifiek bent, is het onduidelijk hoe generaliseerbaar de resultaten van uw agent zullen zijn.”

Wat dit betekent voor de adoptie van AI in ondernemingen

Voor bedrijven die momenteel documentzware AI-agentsystemen implementeren of plannen, biedt OfficeQA een serieuze realiteitscheck. Zelfs het nieuwste frontier-model bereikt slechts een nauwkeurigheid van 43% op onverwerkte PDF’s en haalt geen nauwkeurigheid van 70%, zelfs niet met optimale documentparsering. De prestaties op de moeilijkste vragen bedroegen 40%, wat aangeeft dat er een enorme ruimte voor verbetering is.

Drie directe gevolgen:

Evalueer de complexiteit van uw document: Als uw document lijkt op het complexiteitsprofiel van een Treasury Bulletin (gescande afbeeldingen, geneste tabelstructuur, verwijzingen tussen documenten), verwacht dan dat de nauwkeurigheid ervan ruim onder de marketingclaims van de leverancier ligt. Test uw daadwerkelijke document voordat u het in productie neemt.

Plan voor ontbindingsbarrières: Uit testresultaten blijkt dat parseren nog steeds een fundamenteel knelpunt is. Budgeteer tijd en middelen voor een aangepaste parseeroplossing in plaats van ervan uit te gaan dat kant-en-klare OCR voldoende is.

Plan voor mislukkingen bij moeilijke vragen: Zelfs met optimale parsering blijft de agent nog steeds 40% achter bij complexe meerstapsquery’s. Voor kritieke documentworkflows die analyse van meerdere documenten, statistische berekeningen of visueel redeneren vereisen, zijn de huidige mogelijkheden van agenten mogelijk niet gereed zonder aanzienlijk menselijk toezicht.

Voor bedrijven die leiders willen worden op het gebied van AI-aangedreven documentintelligentie bieden deze benchmarks een concreet evaluatiekader en identificeren ze specifieke lacunes in de capaciteiten die moeten worden aangepakt.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in