Er zitten veel bedrijfsgegevens vast in PDF-documenten. De eerlijkheid gebiedt te zeggen dat de tools voor het genereren van AI PDF’s hebben kunnen verwerken en analyseren, maar nauwkeurigheid, tijd en kosten zijn nog steeds niet ideaal. Nieuwe technologie van Databricks kan dat veranderen.
Het bedrijf heeft deze week zijn “ai_parse_document”-technologie gedetailleerd beschreven, die nu is geïntegreerd met Databricks Bricks Agent-platform. Deze technologie overwint een cruciaal obstakel bij de acceptatie van AI in ondernemingen: ongeveer 80% van de bedrijfskennis blijft opgeslagen in pdf’s, rapporten en diagrammen die voor AI-systemen moeilijk te verwerken en nauwkeurig te begrijpen zijn.
“Er wordt algemeen aangenomen dat het parseren van PDF’s een opgelost probleem is, maar dat is niet het geval”, zegt Erich Elsen, hoofdonderzoeker bij Databricks, tegen VentureBeat. “De uitdaging is niet alleen dat documenten ongestructureerd zijn; het is ook dat bedrijfs-PDF’s inherent complex zijn. Enterprise-PDF’s combineren native digitale inhoud met gescande pagina’s en foto’s van fysieke documenten, evenals tabellen, grafieken en onregelmatige lay-outs, en de meeste bestaande tools slagen er niet in om die informatie nauwkeurig vast te leggen.”
De verborgen complexiteit achter het parseren van documenten
Hoewel optische tekenherkenning (OCR) al tientallen jaren bestaat, stelt Elsen dat het extraheren van bruikbare gestructureerde gegevens uit echte bedrijfsdocumenten fundamenteel onopgelost blijft.
Belangrijke elementen zoals tabellen met samengevoegde cellen, bijschriften van figuren en ruimtelijke relaties tussen documentelementen worden routinematig weggelaten of verkeerd gelezen door bestaande tools, waardoor downstream AI-applicaties, retrieval-augmentation (RAG)-systemen of business intelligence-dashboards onbetrouwbaar worden.
De typische oplossing van het bedrijf is om verschillende imperfecte tools op elkaar te stapelen: één service voor lay-outdetectie, een andere service voor OCR, een derde service voor tabelextractie en een extra API voor beeldanalyse. Deze aanpak vereist maanden van toegewijde data-engineering en voortdurend onderhoud naarmate de documentformaten evolueren.
“Ter compensatie moesten teams een aantal rudimentaire tools samenstellen of uitgebreide pijpleidingen op maat bouwen, waarbij ze maandenlang bezig waren met data-engineering in plaats van met innovatie”, aldus Elsen. “ai_parse_document bereikt dit door volledige, gestructureerde gegevens uit documenten uit de echte wereld te extraheren, zodat organisaties eindelijk ongestructureerde gegevens rechtstreeks binnen Databricks kunnen vertrouwen en opvragen.”
Technische aanpak: uitgebreide versus uitgebreide opbouw van trainingspijplijnen
Er zijn tegenwoordig verschillende services op de markt voor het parseren van PDF’s, waaronder AWS Textract, Google Document AI en Azure Document Intelligence. Elsen stelt dat de tool, in plaats van simpelweg tekst te lezen, gebruik maakt van een systeem van moderne AI-componenten die end-to-end zijn getraind om gestructureerde context met de modernste kwaliteit te extraheren.
De functionaliteit gaat verder dan de basisextractie en legt het volgende vast:
-
Tabellen worden precies bewaard zoals ze verschijnen, inclusief gecombineerde cellen en geneste structuren
-
Afbeeldingen en diagrammen met door AI gegenereerde bijschriften en beschrijvingen
-
Ruimtelijke metadata en selectiekaders voor nauwkeurige elementlocatie
-
Optionele beelduitvoer voor multimodale zoektoepassingen
Alle resultaten worden rechtstreeks in de Databricks Unity Catalog opgeslagen als Delta-tabellen, wat betekent dat de documenten worden geparseerd in gestructureerde gegevens die kunnen worden opgevraagd zonder de Databricks-omgeving te verlaten. Dit is een belangrijke onderscheidende factor ten opzichte van cloudservices waarvoor gegevensexport nodig is voor verwerking.
“Door datagerichte training en geoptimaliseerde inferentie hebben we 3 tot 5 keer lagere kosten gerealiseerd, terwijl we toonaangevende systemen zoals Textract, Document AI en Azure Document Intelligence evenaren of zelfs overtreffen”, aldus Elsen.
De eerste toepassingen van het bedrijf waren in de productie- en industriële sectoren
Verschillende grote bedrijven hebben ai_parse_document in productie geïmplementeerd met gebruiksscenario’s zoals data science-workflowoptimalisatie, democratisering van documentverwerking en ontwikkeling van RAG-applicaties.
Elsen merkt bijvoorbeeld op dat Rockwell Automation ai_parse_document gebruikt om de configuratieoverhead voor zijn datawetenschappers te verminderen.
“Wat ooit een aanzienlijke set-up vereiste om complexe oplossingen te ondersteunen, is nu gestroomlijnd, waardoor hun teams meer tijd kunnen besteden aan innovatie en minder tijd aan het beheren van de infrastructuur”, zei hij.
TE Connectivity gebruikt ondertussen ai_parse_document om ongestructureerde gegevensverwerking te democratiseren.
“Voorheen vereiste het extraheren van tabellen, tekst en metagegevens uit documenten complexe workflows en veel code”, aldus Elsen. “Met Databricks hebben ze dat allemaal samengevat in één enkele SQL-functie, waardoor geavanceerde documentverwerking toegankelijk is voor elk datateam, niet alleen voor datawetenschappers.”
Emerson Electric was een andere early adopter. Bedrijven gebruiken ai_parse_document voor RAG-gebruiksscenario’s. Elsen legde uit dat Emerson, door parallelle documentparsing rechtstreeks in Delta-tabellen mogelijk te maken, het bouwen van RAG-applicaties snel en eenvoudig heeft gemaakt, allemaal binnen de bestaande Databricks-omgeving.
Integratie van gameplatforms
Hoewel Databricks een lange geschiedenis heeft met open source, is de ai_parse_document technologie een eigen onderdeel van het Databricks-platform.
In tegenstelling tot zelfstandige documentintelligentie-API’s is ai_parse_document diep geïntegreerd met het Agent Bricks-platform van Databricks, een verzameling AI-functies en orkestratiemogelijkheden voor het bouwen van productie-AI-agents.
Deze functionaliteit werkt met de bredere data-infrastructuur van Databricks, waaronder:
-
Declaratieve pijplijnvonk: Biedt geautomatiseerde incrementele verwerking, wat betekent dat nieuwe documenten die binnenkomen in SharePoint, S3 of Azure Data Lake Storage automatisch worden geparseerd zonder handmatige orkestratie.
-
Unity-catalogus: Stel machtigingen, audittrails en gegevensafkomst voor geparseerde inhoud precies zo in als voor gestructureerde gegevens.
-
Vector zoeken: Indexeert documentelementen, inclusief tekst, tabellen en afbeeldingen met bijschriften, voor multimodale RAG-toepassingen.
-
AI-functieset: Hiermee kunnen ontwikkelaars ai_parse_document-uitvoer rechtstreeks doorsturen naar ai_extract (entiteitsextractie), ai_classify (documentcategorisering) en ai_summarize (samenvatting van inhoud) in één SQL-query.
-
Supervisor van meerdere agenten: Coördineer documentverwerkingsagenten met andere gespecialiseerde agenten voor complexe workflows.
“Parsen is slechts het begin en zelden het einde”, zegt Elsen. “Het doel is om klanten in staat te stellen onze ai_functies, zoals ai_extract en ai_classify, te combineren met ai_parse_document om hun documenten om te zetten in bruikbare gegevens en inzichten. We willen ook het proces vereenvoudigen van het omzetten van verzamelingen documenten in kennisdatabases voor gebruik in RAG’s of andere middelen voor het ophalen van informatie.”
Wat dit betekent voor de AI-strategieën van bedrijven
Voor bedrijven die AI-agentsystemen bouwen, is het belangrijk om te begrijpen hoe PDF-documenten daadwerkelijk door het systeem worden gebruikt en begrepen.
De aanpak van Databricks werpt nieuw licht op een probleem waarvan velen dachten dat het opgelost was. Het daagt bestaande verwachtingen uit met een nieuwe architectuur die meerdere soorten workflows ten goede kan komen. Dit is echter een platformspecifieke mogelijkheid die zorgvuldige evaluatie vereist voor organisaties die Databricks nog niet gebruiken.
Voor technische besluitvormers die AI-agentplatforms evalueren, is de belangrijkste conclusie dat documentintelligentie zich ontwikkelt van een speciale externe dienst naar een geïntegreerde platformmogelijkheid.



