De moderne klant heeft slechts één belangrijke behoefte: Get die zaak zij willen wanneer ze het willen. Oud standaard RAG-model insluiten+nemen+LLM de intentie verkeerd begrijpen, de context overbelasten en de versheid missen, waardoor klanten herhaaldelijk op het verkeerde pad worden gebracht.
Intent-first-architecturen gebruiken daarentegen lichtgewicht taalmodellen om zoekopdrachten te ontleden op intentie en context, voordat ze naar de meest relevante inhoudsbronnen (documenten, API’s, mensen) worden gestuurd.
Enterprise AI is een trein die richting een klif rijdt. Veel organisaties implementeren op LLM gebaseerde zoekapplicaties in recordtempo, terwijl onderliggende architectuurproblemen het meest vatbaar zijn voor mislukkingen.
Uit een recent onderzoek van Coveo blijkt precies dat 72% van de zakelijke zoekopdrachten mislukt om bij de eerste poging betekenisvolle resultaten op te leveren, terwijl Gartner ook schat dat de meeste conversationele AI-implementaties niet voldoen aan de verwachtingen van ondernemingen.
Het probleem ligt niet in het onderliggende model. Het is de architectuur om hen heen.
Nadat ik op AI gebaseerde platforms voor live klantbetrokkenheid op grote schaal had ontworpen en uitgevoerd, waarmee miljoenen klanten en burgergebruikers bij enkele van ’s werelds grootste telecommunicatie- en gezondheidszorgorganisaties werden bediend, merkte ik een patroon op. Dat is het verschil tussen succes Implementatie van AI-aangedreven interacties en mislukkingen van meerdere miljoenen dollars.
Het is cloud-native architectuur het patroon dat ik noemde Intentie-eerst. En het verandert de manier waarop bedrijven AI-aangedreven ervaringen bouwen.
Passagiersprobleem van $ 36
Gartner voorspelt dat de mondiale markt voor conversatie-AI zal groeien 36 miljard dollar in 2032. Bedrijven proberen er een stukje van te bemachtigen. De demo is onweerstaanbaar. Verbind je LLM in uw kennisbanken ineens klantvragen in natuurlijke taal kunnen beantwoorden. Magie.
Dan vindt de productie plaats.
De grote telecommunicatieaanbieder waarvoor ik werk, heeft een RAG-systeem gelanceerd in de hoop de tarieven voor ondersteunende oproepen te verlagen. In plaats daarvan zijn de aantallen toegenomen. De beller probeerde een AI-aangedreven zoekopdracht uit te voeren, kreeg met een hoge mate van vertrouwen het verkeerde antwoord en nam bozer dan voorheen contact op met de klantenondersteuning.
Dit patroon herhaalt zich keer op keer. In de gezondheidszorg voorzien klantgerichte AI-assistenten patiënten van formulierinformatie die weken of maanden verouderd is. Chatbots voor financiële diensten bieden antwoorden op basis van productinhoud voor de detailhandel en instellingen. Retailers zien beëindigde producten verschijnen in productzoekopdrachten.
Het probleem is niet het falen van AI-technologie. Dit is een architectonisch falen
Waarom de standaard RAG-architectuur faalde
Standaard RAG-patronen – zoekopdrachten insluiten, semantisch vergelijkbare inhoud ophalen, in aanmerking komen voor LLM —Werkt goed in demo’s en proofs of concept. Maar dit valt om drie systematische redenen uiteen in productiegebruiksscenario’s:
1. Intentiekloof
Intentie is geen context. De standaard RAG-architectuur houdt hier echter geen rekening mee.
Stel dat een klant typt: ‘Ik wil annuleren’. Wat betekent dat? Dienst opzeggen? Een bestelling annuleren? Afspraak annuleren? Tijdens onze telecomimplementatie ontdekten we dat 65% van de vragen over “annuleringen” feitelijk over bestellingen of afspraken ging, en niet over annuleringen van diensten. Het RAG-systeem begrijpt deze bedoeling niet en retourneert daarom consequent serviceannuleringsdocumenten.
Intentie is belangrijk. Als een patiënt in de gezondheidszorg ‘Ik moet annuleren’ typt omdat hij of zij een afspraak, het bijvullen van recepten of een procedure probeert te annuleren, is het doorsturen naar de medicatie-inhoud van de planner niet alleen frustrerend, maar ook gevaarlijk.
2. Overstromingscontext
De kennis en ervaring van het bedrijf is uitgebreid en omvat tientallen bronnen, zoals productcatalogi, facturering, ondersteuningsartikelen, beleid, promoties en accountgegevens. Het standaard RAG-model behandelt ze allemaal hetzelfde en doorzoekt ze allemaal voor elke zoekopdracht.
Wanneer klanten vragen: “Hoe activeer ik mijn nieuwe telefoon”, geven ze niets om veelgestelde vragen over facturering, winkellocaties of updates van de netwerkstatus. Maar het standaard RAG-model haalt semantisch vergelijkbare inhoud uit elke bron, wat resulteert in zoekresultaten die een halve stap afwijken.
3. Blinde vlek voor versheid
Vectorruimten zijn tijdblind. Semantisch gezien zijn de promoties van het afgelopen kwartaal identiek aan de promoties van dit kwartaal. Maar het aanbieden van verouderde aanbiedingen aan klanten zal het vertrouwen vernietigen. We schrijven het merendeel van de klachten van klanten toe aan zoekresultaten die verlopen producten, aanbiedingen of functies tonen.
Intent-First architectonisch patroon
Het Intent-First architectuurpatroon is een spiegelbeeld van de standaard RAG-implementatie. In het RAG-model pak je het op en leid je het vervolgens. In het Intent-First-model classificeert u voordat u routert of ophaalt.
Intent-First-architectuur maakt gebruik van een lichtgewicht taalmodel om intentie- en contextquery’s te parseren, voordat deze naar de meest relevante inhoudsbronnen (documenten, API’s, agenten) worden verzonden.
Vergelijking: Intent-first RAG versus standaard RAG

Cloud-native implementatie
Het Intent-First-patroon is ontworpen voor cloud-native implementaties, waarbij gebruik wordt gemaakt van microservices, containerisatie en elastische schaling om bedrijfsverkeerspatronen af te handelen.
Intentieclassificatieservice
De classificator bepaalt de intentie van de gebruiker voordat het ophalen plaatsvindt:
ALGORITME: Intentieclassificatie
INPUT: gebruikersverzoek (tekenreeks)
OUTPUT: intent_result (object)
1. PREPROCESS-query (normaliseren, samentrekking uitbreiden)
2. CLASSIFICATIE met behulp van transformatormodellen:
– primaire_intentie ← model.predict(query)
– vertrouwen ← model.confidence_score()
3. ALS vertrouwen < 0,70 DAN
– OPBRENGST {
vereist_verduidelijking: waar,
voorgestelde_vragen: genereer_verduidelijkte_vragen(query)
}
4. EXTRACT sub_intent op basis van primaire_intent:
– ALS primair = “ACCOUNT” → controleer ORDER_STATUS, PROFILE, enz.
– ALS primair = “ONDERSTEUNING” → controleer DEVICE_ISSUE, NETWORK, etc.
– ALS primair = “FACTURERING” → controleer BETALINGEN, GESCHILLEN, etc.
5. BEPALEN doelbronnen op basis van intentietoewijzing:
– ORDER_STATUS → (bestellingen_db, bestellingen_faq)
– DEVICE_ISSUE → (probleemoplossing_kb, apparaat_gids)
– BEHANDELING → (formularium, klinische_documenten) (gezondheidsdiensten)
6. TERUG {
hoofd_intentie,
sub_intentie,
vertrouwen,
bron_doel,
vereist_personalisatie: waar/onwaar
}
Contextbewuste ophaalservice
Zodra de intentie is geclassificeerd, wordt het ophalen gericht:
ALGORITME: Contextbewust ophalen
INPUT: vraag, intent_result, user_context
UITVOER: document_rank
1. GET source_config voor result_intent.sub_intent:
– primaire_bronnen ← bronnen om naar te zoeken
– exception_source ← bron om over te slaan
– versheidsdagen ← maximale leeftijd van de inhoud
2. ALS de intentie personalisatie vereist EN de gebruiker is geverifieerd:
– FETCH account_context van Account Services
– ALS intentie = ORDER_STATUS:
– FETCH laatste_bestelling (laatste 60 dagen)
– TOEVOEGEN aan resultaten
3. BOUW een zoekfilter:
– content_types ← alleen hoofd_bron
– max_age ← dagen_versheid
– user_context ← account_context (indien beschikbaar)
4. VOOR ELKE bron IN primaire_bronnen:
– document ← vector_search (query, bron, filter)
– VOEG documenten toe aan resultaten
5. SCORE elk document:
– relevantie_score ← gelijkenis_vector × 0,40
– recentheid_score ← versheid_gewicht × 0,20
– personaliseer_score ← user_match × 0,25
– Intent_match_score ← type_match × 0,15
– totale_score ← SOM hierboven
6. RANGSTELLING op basis van totale_score neemt af
7. RETOUR top 10 documenten
Speciale gezondheidszorgoverwegingen
Bij implementaties in de gezondheidszorg omvat het Intent-First-patroon aanvullende beveiligingen:

Categorieën gezondheidszorgintenties:
-
Klinisch: Behandelingsvragen, symptomen, verzorgingsinstructies
-
Dekking: Voordelen, voorafgaande toestemming, formularium
-
Planning: Afspraken, beschikbaarheid van providers
-
Facturering: Claims, betalingen, rapporten
-
Rekening: Profiel, afhankelijke personen, KTP
Belangrijke bescherming: Klinische vragen bevatten altijd een disclaimer en vervangen nooit professioneel medisch advies. Dit systeem stuurt complexe klinische vragen naar menselijke ondersteuning.
Behandel randgevallen
Randgevallen zijn gevallen waarin het systeem faalt. Het Intent-First-patroon bevat bepaalde handlers:

Trefwoorden voor frustratiedetectie:
-
Woede: “verschrikkelijk”, “ergste”, “hatelijk”, “belachelijk”
-
Tijd: “uur”, “dag”, “nog steeds wachtend”
-
Mislukking: “nutteloos”, “niet nuttig”, “niet succesvol”
-
Escalatie: “praat met een mens”, “echte persoon”, “manager”
Wanneer er frustratie wordt gedetecteerd, sla dan de zoektocht volledig over en leid deze door naar menselijke ondersteuning.
Sectoroverschrijdende toepassingen
Het Intent-First-patroon is van toepassing overal waar bedrijven conversationele AI toepassen op heterogene inhoud:
|
Industrie |
Intentiecategorie |
Belangrijkste voordelen |
|
Telecommunicatie |
Verkoop, ondersteuning, facturering, accounts, retentie |
Voorkomt misclassificaties bij het ‘annuleren’. |
|
Gezondheid |
Klinisch, dekking, planning, facturering |
Het scheiden van het klinische en het administratieve |
|
Financiële diensten |
Detailhandel, institutioneel, kredietverlening, verzekeringen |
Voorkom contextvermenging |
|
Detailhandelaar |
Producten, bestellingen, retouren, loyaliteit |
Zorg voor promotionele versheid |
Resultaten
Na de implementatie van de Intent-First-architectuur op telecom- en gezondheidszorgplatforms:
|
Metrisch |
Invloed |
|
Succespercentage van zoekopdrachten |
Bijna het dubbele |
|
Ondersteuning van escalatie |
Met ruim de helft verminderd |
|
Tijd voor oplossing |
Verminderd met ongeveer 70% |
|
Gebruikerstevredenheid |
Verhoogd met ongeveer 50% |
|
Retourpercentage van gebruiker |
Meer dan het dubbele |
Het aantal terugkerende gebruikers bleek het meest significant. Wanneer de zoekopdracht succesvol is, komt de gebruiker terug voor meer. Als het mislukt, verlaten ze het kanaal volledig, waardoor de kosten voor alle andere ondersteuningskanalen stijgen.
Strategisch imperatief
De markt voor conversatie-AI zal een snelle groei blijven doormaken.
Maar bedrijven die een typische RAG-architectuur bouwen en implementeren zullen blijven falen… herhaaldelijk.
AI zal zelfverzekerd de verkeerde antwoorden geven, gebruikers zullen gefrustreerd de digitale kanalen verlaten en de ondersteuningskosten zullen stijgen in plaats van dalen.
Intent-First is een fundamentele verandering in de manier waarop bedrijven AI-aangedreven klantgesprekken ontwerpen en bouwen. Het gaat niet om betere modellen of meer data. Het gaat erom dat u begrijpt wat gebruikers willen, voordat u ze probeert te helpen.
Hoe eerder een organisatie dit als een noodzaak op architectonisch gebied onderkent, hoe eerder zij de efficiëntiewinsten kunnen plukken die deze technologie naar verwachting zal opleveren. Degenen die dit niet doen, zullen zich afvragen waarom hun AI-investeringen de komende jaren niet de verwachte bedrijfsresultaten hebben opgeleverd.
De demo is eenvoudig. De productie is moeilijk. Maar het patroon van productiesucces is duidelijk: Eerste intentie.
Sreenivasa Reddy Hulebeedu Reddy is de belangrijkste software-ingenieur en architect van het bedrijf
Welkom bij de VentureBeat-community!
In ons gastenprogramma delen technische experts inzichten en geven ze onpartijdige, diepgaande uitleg over AI, data-infrastructuur, cyberbeveiliging en andere geavanceerde technologieën die de toekomst van ondernemingen vormgeven.
Lees meer uit ons gastenpostprogramma — en bekijk het eens richtlijnen als u geïnteresseerd bent om uw eigen artikel bij te dragen!



