Home Nieuws Databricks heeft een robuuster model getest met zijn meerstapsagent voor hybride query’s....

Databricks heeft een robuuster model getest met zijn meerstapsagent voor hybride query’s. Het krachtigere model verliest nog steeds met 21%.

2
0
Databricks heeft een robuuster model getest met zijn meerstapsagent voor hybride query’s. Het krachtigere model verliest nog steeds met 21%.

Datateams die AI-agenten bouwen, blijven dezelfde faalwijzen ervaren. Vragen waarbij gestructureerde gegevens moeten worden gecombineerd met ongestructureerde inhoud, verkoopcijfers en klantrecensies of citatietellingen naast academische artikelen, doorbreken het RAG-systeem één cirkel.

Nieuw onderzoek van Databricks plaatst de cijfers op die mislukkingskloof. Het AI-onderzoeksteam van het bedrijf testte de meerstapsagentbenadering tegen een ultramoderne single-turn RAG-basislijn voor negen zakelijke kennistaken en rapporteerde verbeteringen van 20% of meer op Stanfords STaRK-benchmarksuite, samen met consistente verbeteringen in de Databricks-suite van Databricks. KARLBench-evaluatiekadervolgens onderzoek. Databricks stelt dat de prestatiekloof tussen single-loop RAG’s en meerstapsagenten bij hybride datataken een architectuurprobleem is, en geen modelkwaliteitsprobleem.

Dit werk bouwt voort op eerdere Databricks instrueerde de retriever onderzoek, waaruit blijkt dat ongestructureerde gegevens beter kunnen worden opgehaald met behulp van metagegevens-compatibele zoekopdrachten. Dit nieuwste onderzoek voegt gestructureerde gegevensbronnen, relationele tabellen en SQL-magazijnen toe aan dezelfde gedachtegang en beantwoordt een groep vragen die bedrijven met de huidige agent-architecturen vaak niet kunnen beantwoorden.

“RAG werkt, maar schaalt niet”, zegt Michael Bendersky, onderzoeksdirecteur bij Databricks, tegen VentureBeat. “Als je je agenten nog beter wilt maken, en je wilt begrijpen waarom je omzet daalt, moet je agenten nu helpen bij het kijken naar tabellen en verkoopgegevens. Jouw RAG-pijplijn zal incompetent zijn in die taak.”

Het ophalen van een enkele lus kan geen structurele beperkingen coderen

De kernbevinding is dat standaard RAG-systemen falen wanneer zoekopdrachten adequaat gestructureerde filters combineren met open semantische zoekopdrachten.

Denk aan vragen als ‘Welke van onze producten hebben de afgelopen drie maanden een omzetdaling ervaren en welke mogelijke gerelateerde problemen verschijnen in klantrecensies op verschillende verkopersites?’ Verkoopgegevens bevinden zich in het magazijn. Recensiegevoelens zijn opgenomen in ongestructureerde documenten op verkoperssites. Een RAG-systeem met één lus kan deze zoekopdrachten niet splitsen, elke helft naar de juiste gegevensbron leiden en de resultaten combineren.

Om ervoor te zorgen dat dit een architectonisch probleem was en geen probleem met de modelkwaliteit, heeft Databricks de STaRK-basislijn opnieuw uitgevoerd met behulp van het huidige state-of-the-art funderingsmodel. Volgens het onderzoek verloor het krachtigere model nog steeds 21% van de meerstapsagent in het academische domein en 38% in het biomedische domein.

STaRK is een benchmark gepubliceerd door Stanford-onderzoekers die drie semi-gestructureerde ophaaldomeinen bestrijkt: Amazon-productgegevens, Microsoft Academic Graph en biomedische kennisbanken.

Hoe de Supervisor Agent omgaat met wat RAG niet kan

Databricks heeft de Supervisor Agent gebouwd als productie-implementatie van deze onderzoeksaanpak, en de architectuur ervan illustreert waarom de winsten consistent zijn voor alle taaktypen. Deze aanpak omvat drie kernstappen:

Parallelle gereedschapsontleding. In plaats van één brede vraag te stellen en te hopen dat de resultaten aan zowel gestructureerde als ongestructureerde behoeften voldoen, vuren agenten tegelijkertijd SQL- en vectorzoekopdrachten af ​​en analyseren ze vervolgens de gecombineerde resultaten voordat ze beslissen wat ze vervolgens gaan doen. Het is die parallelle stap die het mogelijk maakt om query’s af te handelen die de grenzen van het gegevenstype overschrijden zonder dat de gegevens eerst moeten worden genormaliseerd.

Zelfcorrectie. Wanneer de initiële ophaalpoging vastloopt, detecteert de agent de fout, herformuleert de query en probeert een ander pad. In een STaRK-benchmarktaak waarbij wordt gezocht naar artikelen van auteurs met exact 115 eerdere publicaties over een bepaald onderwerp, voert de agent eerst parallelle query’s uit in SQL en vectorzoekopdrachten. Wanneer de twee resultaatsets geen overlap vertonen, past het zich aan en geeft een SQL JOIN uit voor beide beperkingen, waarna het vectorzoeksysteem wordt aangeroepen om de resultaten te verifiëren voordat het antwoord wordt geretourneerd.

Declaratieve configuratie. Agents zijn niet afgestemd op specifieke datasets of taken. Als u deze aan een nieuwe gegevensbron koppelt, betekent dit dat u in eenvoudige taal beschrijft wat de bron bevat en welke soorten vragen deze moet beantwoorden. Geen speciale code vereist.

“Agenten kunnen bijvoorbeeld vragen ontleden in SQL-query’s en directe zoekopdrachten”, zegt Bendersky. “Het kan SQL- en RAG-resultaten combineren, die resultaten overwegen, vervolgvragen stellen en vervolgens overwegen of er daadwerkelijk een definitief antwoord is gevonden.”

Het gaat niet alleen om het nemen van hybriden

Het verschil dat Databricks maakt, gaat niet over de ophaaltechniek, maar eerder over de architectuur.

“We zien het nauwelijks als een hybride opzoeking waarbij je insluitingen en zoekresultaten combineert, of insluitingen en tabellen”, zei hij. “We zien dit meer als agenten die toegang hebben tot een verscheidenheid aan tools.”

Het praktische gevolg van een dergelijke framing is dat het toevoegen van een nieuwe gegevensbron betekent dat deze aan een agent moet worden gekoppeld en dat er een beschrijving van de inhoud moet worden geschreven. De agent handelt routering en orkestratie af zonder aanvullende code.

Aangepaste RAG-pijplijnen vereisen dat gegevens worden geconverteerd naar een indeling die kan worden gelezen door het ophaalsysteem, meestal in de vorm van tekstblokken met insluitingen. SQL-tabellen moeten worden afgevlakt, JSON moet worden genormaliseerd. Elke nieuwe gegevensbron die aan de pijplijn wordt toegevoegd, betekent meer conversiewerk. Uit het onderzoek van Databrick blijkt dat naarmate bedrijfsgegevens steeds meer soorten bronnen omvatten, de last speciale pijplijnen steeds onpraktischer maakt vergeleken met agenten die elke bron in zijn eigen formaat bevragen.

“Breng de agent gewoon naar de gegevens”, zei Bendersky. “Je geeft agenten eigenlijk meer middelen, en agenten zullen ze redelijk goed leren gebruiken.”

Wat dit betekent voor het bedrijf

Voor data-ingenieurs die evalueren of ze een aangepaste RAG-pijplijn moeten bouwen of een declaratief agent-framework moeten adopteren, biedt dit onderzoek een duidelijke richting: als de taak vragen omvat die zowel gestructureerde als ongestructureerde gegevens omvatten, is het bouwen van een aangepaste vastlegging het moeilijkere pad. Uit het onderzoek bleek dat bij alle geteste taken het enige dat verschilde tussen de implementaties de instructies en beschrijving van de tool waren. De agent regelt de rest.

De praktische beperkingen zijn reëel, maar beheersbaar. Deze aanpak werkt goed met vijf tot tien gegevensbronnen. Als u te veel bronnen tegelijk toevoegt, zonder te selecteren welke bronnen elkaar aanvullen in plaats van conflicteren, wordt de agent langzamer en minder betrouwbaar. Bendersky raadt aan om geleidelijk op te schalen en de resultaten bij elke stap te verifiëren, in plaats van eerst alle beschikbare gegevens te correleren.

Accuratesse van data is een voorwaarde. Agenten kunnen query’s uitvoeren in niet-overeenkomende formaten, JSON-beoordelingsfeeds naast SQL-verkooptabellen, zonder dat normalisatie nodig is. Het kan feitelijk onjuiste brongegevens niet corrigeren. Door tijdens de opname duidelijke taalbeschrijvingen voor elke gegevensbron toe te voegen, kunnen agenten zoekopdrachten vanaf het begin correct routeren.

Het onderzoek positioneert dit als een eerste stap in een langere richting. Naarmate de AI-workloads van ondernemingen volwassener worden, wordt van agenten verwacht dat ze rekening houden met meerdere brontypen, waaronder dashboards, codeopslagplaatsen en externe datafeeds. Dit onderzoek betoogt dat het een declaratieve benadering is die een dergelijke schaalvergroting mogelijk maakt, aangezien het toevoegen van nieuwe bronnen een configuratieprobleem blijft en geen technisch probleem.

“Het is net een ladder”, zei Bendersky. “De agent krijgt langzaam meer informatie en verbetert dan langzaam in het algemeen.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in