Home Nieuws De meeste RAG-systemen begrijpen complexe documenten niet; ze breken ze

De meeste RAG-systemen begrijpen complexe documenten niet; ze breken ze

14
0
De meeste RAG-systemen begrijpen complexe documenten niet; ze breken ze

Tegenwoordig hebben veel bedrijven een of andere vorm van RAG geïmplementeerd. De belofte is verleidelijk: indexeer uw PDF’s, sluit uw LLM aan en democratiseer onmiddellijk uw bedrijfskennis.

Maar voor industrieën die afhankelijk zijn van zware techniek is de realiteit onbevredigend. Ingenieurs stellen specifieke vragen over de infrastructuur en de bot hallucineert.

Mislukking niet in LLM. De fout zit in de voorverwerking.

De standaard RAG-pijplijn behandelt documenten als platte tekstreeksen. Ze gebruiken “vaste groottegroepering” (het document wordt elke 500 tekens bijgesneden). Dit werkt voor proza, maar doorbreekt de logica van technische handleidingen. Het splitst tabellen in tweeën, snijdt bijschriften uit afbeeldingen en negeert de visuele hiërarchie van de pagina.

IHet verbeteren van de RAG-betrouwbaarheid betekent niet dat je een groter model moet kopen; het gaat over het oplossen van het ‘dark data’-probleem door middel van semantische clustering en multimodale tekstualisering.

Hier is een architectonisch raamwerk voor het bouwen van een RAG-systeem dat daadwerkelijk handleidingen kan lezen.

De misvatting van chunking met een vaste grootte

In de standaard Python RAG-tutorial verdeel je tekst op basis van het aantal tekens. Bij bedrijfs-PDF’s is dit een ramp.

Als de tabel met beveiligingsspecificaties 1.000 tokens bevat en uw chunkgrootte 500 is, heeft u zojuist de header ‘spanningslimiet’ gesplitst van de waarde ‘240V’. Dat vectordatabase bewaar deze apart. Wanneer de gebruiker vraagt: “Wat is de spanningslimiet?”, Vindt het ophaalsysteem de header, maar niet de waarde. LLM’s die gedwongen worden te antwoorden, raden vaak.

De oplossing: semantische clustering

De eerste stap naar het verbeteren van productie-RAG’s is het opgeven van het willekeurig tellen van tekens ten gunste van documentintelligentie.

Door een opmaakbewuste parseertool (zoals Azure Document Intelligence) te gebruiken, kunnen we gegevens groeperen op basis van documentstructuur, zoals hoofdstukken, secties en alinea’s, in plaats van op basis van het aantal tokens.

  • Logische samenhang: Secties die een bepaald machineonderdeel beschrijven, worden als één vector opgeslagen, zelfs als ze in lengte variëren.

  • Tafelbehoud: De parser identificeert tabelgrenzen en forceert het hele raster in één sectie, waarbij de rij-kolomrelaties behouden blijven die belangrijk zijn voor nauwkeurig ophalen.

In onze interne kwalitatieve benchmarks heeft de overstap van vaste groepering naar semantische groepering de nauwkeurigheid van het ophalen van gegevens in tabelvorm aanzienlijk verbeterd, waardoor de fragmentatie van technische specificaties effectief is gestopt.

Visuele donkere gegevens ontsluiten

De tweede faalwijze van ondernemings-RAG’s is blindheid. Een grote hoeveelheid bedrijfs-IP bestaat niet in tekstvorm, maar in stroomdiagrammen, schema’s en systeemarchitectuurdiagrammen. Standaard insluitingsmodellen (zoals insluiting van 3 kleine tekst) kunnen deze afbeeldingen niet “zien”. Ze worden tijdens het indexeren overgeslagen.

Als uw antwoord in een stroomdiagram ligt, zegt uw RAG-systeem: “Ik weet het niet.”

De oplossing: multimodale tekstualisatie

Om het diagram doorzoekbaar te maken, passen we een multimodale voorverwerkingsstap toe met behulp van vision-enabled modellen (met name GPT-4o) voordat de gegevens de vectoropslag binnenkomen.

  1. OCR-extractie: Uiterst nauwkeurige optische tekenherkenning haalt tekstlabels uit afbeeldingen.

  2. Generatieve tekst: Het visiemodel analyseert het beeld en maakt een gedetailleerde natuurlijke-taalbeschrijving (“Stroomdiagram dat laat zien dat proces A leidt tot proces B als de temperatuur boven de 50 graden komt”).

  3. Hybride inbedding: Deze resulterende beschrijving wordt ingebed en opgeslagen als metadata gekoppeld aan de originele afbeelding.

Wanneer een gebruiker nu zoekt naar “temperatuurprocesstroom”, zal de vectorzoekopdracht overeenkomen informatieook al is de originele bron een PNG-bestand.

Vertrouwenslaag: op bewijs gebaseerde gebruikersinterface

Voor bedrijfstoepassingen is nauwkeurigheid slechts het halve werk. De andere helft wel verificatiemogelijkheden.

In een standaard RAG-interface biedt de chatbot tekstantwoorden en citeert bestandsnamen. Dit dwingt gebruikers om de pdf te downloaden en naar pagina’s te zoeken om de claim te verifiëren. Bij vragen waarbij veel op het spel staat (“Is deze chemische stof ontvlambaar?”), zullen gebruikers de bot niet vertrouwen.

Dat architectuur moet visuele citaten implementeren. Omdat we tijdens de voorverwerkingsfase de link tussen het tekstfragment en de bovenliggende afbeelding behouden, kan de gebruikersinterface naast het tekstantwoord het exacte diagram of de exacte tabel weergeven die is gebruikt om het antwoord te genereren.

Dit ‘laat je werk zien’-mechanisme stelt mensen in staat de AI-redeneringen onmiddellijk te verifiëren, waardoor de vertrouwenskloof wordt overbrugd die zoveel mensen het leven kost. interne AI-projecten.

Toekomstbestendig: native multimodale inbedding

Hoewel de methode van “textualisatie” (het omzetten van een afbeelding naar een tekstbeschrijving) vandaag de dag een praktische oplossing is, evolueert de architectuur ervan snel.

We hebben de opkomst ervan al gezien native multimodale inbedding (zoals Cohere’s Embedd 4). Dit model kan tekst en afbeeldingen in dezelfde vectorruimte in kaart brengen zonder tussenstappen bij het genereren van tekst. Hoewel we momenteel meertrapspijplijnen gebruiken voor maximale controle, zal de toekomst van de data-infrastructuur waarschijnlijk ‘end-to-end’-vectorisatie met zich meebrengen, waarbij pagina-indelingen rechtstreeks worden ingebed.

Volgende als LLM lange context Omdat het kosteneffectief is, kan de behoefte aan chunking worden verminderd. We zullen onmiddellijk de volledige handleiding doorgeven aan het contextvenster. Totdat de latentie en de kosten voor het aanroepen van miljoenen tokens aanzienlijk dalen, blijft semantische voorverwerking echter de economisch meest haalbare strategie voor realtime systemen.

Conclusie

Het verschil tussen RAG-demo’s en productiesystemen is de manier waarop ze omgaan met de rommelige realiteit van bedrijfsgegevens.

Beschouw uw documenten niet langer als eenvoudige tekstreeksen. Als u wilt dat AI uw bedrijf begrijpt, moet u de structuur van uw documenten respecteren. Door semantische groepering toe te passen en visuele gegevens in uw grafieken te ontsluiten, transformeert u uw RAG-systeem van een ‘trefwoordzoeker’ in een echte ‘kennisassistent’.

Dippu Kumar Singh is een AI-architect en data-ingenieur.

Welkom bij de VentureBeat-community!

In ons gastenprogramma delen technische experts inzichten en geven ze onpartijdige, diepgaande uitleg over AI, data-infrastructuur, cyberbeveiliging en andere geavanceerde technologieën die de toekomst van ondernemingen vormgeven.

Lees meer uit ons gastenpostprogramma — en bekijk het eens richtlijnen als u geïnteresseerd bent om uw eigen artikel bij te dragen!

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in