Home Nieuws Het ‘last-mile’ dataprobleem belemmert de AI van enterprise-agenten – de ‘gouden pijplijn’...

Het ‘last-mile’ dataprobleem belemmert de AI van enterprise-agenten – de ‘gouden pijplijn’ heeft tot doel dit probleem op te lossen

1
0
Het ‘last-mile’ dataprobleem belemmert de AI van enterprise-agenten – de ‘gouden pijplijn’ heeft tot doel dit probleem op te lossen

Traditionele ETL-tools zoals dbt of Fivetran bereiden gegevens voor op rapportage: gestructureerde analyses en dashboards met stabiele schema’s. AI-toepassingen vereisen iets anders: het voorbereiden van rommelige, evoluerende operationele gegevens voor realtime modelinferentie.

Empromptu noemt dit onderscheid ‘inferentie-integriteit’ versus ‘rapportage-integriteit’. In plaats van datavoorbereiding als een aparte discipline te behandelen, integreert de gouden pijplijn normalisatie rechtstreeks in de AI-applicatieworkflow, waardoor wat normaal gesproken 14 dagen handmatige engineering zou vergen, wordt teruggebracht tot minder dan een uur, aldus het bedrijf. Empromptu’s ‘gouden pijplijn’-aanpak is een manier om de datavoorbereiding te versnellen en de nauwkeurigheid van de data te garanderen.

Het bedrijf werkt voornamelijk met klanten uit het middensegment en ondernemingen in gereguleerde sectoren waar de nauwkeurigheid van gegevens en compliance niet onderhandelbaar zijn. Fintech is de snelst groeiende verticale sector van Empromptu, met extra klanten in de gezondheidszorg en juridische technologie. Het platform is HIPAA-compatibel en SOC 2-gecertificeerd.

“Enterprise AI breekt niet op de modellaag, maar breekt wanneer rommelige gegevens echte gebruikers tegenkomen”, vertelde Shanea Leven, CEO en medeoprichter van Empromptu, aan VentureBeat in een exclusief interview. “Golden pipeline brengt data-opname, voorbereiding en beheer rechtstreeks in AI-applicatieworkflows, zodat teams systemen kunnen bouwen die daadwerkelijk in productie werken.”

Hoe de goudpijplijn werkt

De gouden pijplijn werkt als een geautomatiseerde laag die zich tussen ruwe operationele gegevens en AI-applicatiefuncties bevindt.

Dit systeem vervult vijf kernfuncties. Ten eerste neemt het gegevens op uit elke bron, inclusief bestanden, databases, API’s en ongestructureerde documenten. Vervolgens worden deze gegevens verwerkt door middel van geautomatiseerde inspectie en opschoning, organisatie met schemadefinities en labeling en verrijking om hiaten op te vullen en records te classificeren. Ingebouwde governance- en nalevingscontroles omvatten audittrails, toegangscontroles en privacyhandhaving.

De technische aanpak combineert deterministische voorverwerking met AI-ondersteunde normalisatie. In plaats van elke transformatie hard te coderen, identificeert het systeem inconsistenties, leidt het de ontbrekende structuur af en produceert het classificaties op basis van de modelcontext. Elke transformatie wordt geregistreerd en direct gekoppeld aan downstream AI-evaluaties.

De evaluatielus is van cruciaal belang voor het functioneren van de goudpijplijn. Als gegevensnormalisatie de nauwkeurigheid stroomafwaarts vermindert, vangt het systeem dit op door middel van continue evaluatie van het productiegedrag. De integratie van feedback tussen datavoorbereiding en modelprestaties onderscheidt Golden Pipelines van traditionele ETL-tools, aldus Leven.

Golden pipelines worden rechtstreeks in Empromptu Builder ingebed en worden automatisch uitgevoerd als onderdeel van het maken van AI-applicaties. Vanuit gebruikersperspectief bouwt het team AI-functies. Onder de motorkap zorgen gouden pijplijnen ervoor dat de gegevens die deze functies voeden, schoon, gestructureerd, georganiseerd en klaar zijn voor productiegebruik.

Rapportage-integriteit versus inferentie-integriteit

Leven positioneert goudpijplijnen als oplossing voor een probleem dat fundamenteel verschilt van traditionele ETL-tools zoals dbt, Fivetran of Databricks.

“Dbt en Fivetran zijn geoptimaliseerd voor het rapporteren van integriteit. Goudpijplijnen zijn geoptimaliseerd voor de integriteit van gevolgtrekkingen”, aldus Leven. “Traditionele ETL-tools zijn ontworpen om gestructureerde gegevens te verplaatsen en te transformeren op basis van vooraf gedefinieerde regels. Ze gaan uit van schemastabiliteit, bekende transformaties en relatief statische logica.”

“We vervangen dbt of Fivetran niet; bedrijven zullen ze blijven gebruiken voor magazijnintegriteit en gestructureerde rapportage”, aldus Leven. “Gouden pijplijnen liggen dichter bij de toepassingslaag van AI. Ze lossen het ultieme probleem op: hoe kun je imperfecte operationele gegevens uit de echte wereld gebruiken en deze bruikbaar maken voor AI-functies zonder maanden van handmatig gedoe?”

Het betrouwbaarheidsargument voor op AI gebaseerde normalisatie berust op voortdurende controleerbaarheid en evaluatie.

“Het is geen wonder zonder toezicht. Het kan worden beoordeeld, gecontroleerd en voortdurend worden geëvalueerd aan de hand van het productiegedrag”, aldus Leven. “Als normalisatie de nauwkeurigheid stroomafwaarts vermindert, zal de evaluatielus dit opvangen. Het opnemen van feedback tussen datavoorbereiding en modelprestaties is iets dat traditionele ETL-pijplijnen niet bieden.”

Klantimplementatie: VOW verwerkt gebeurtenisgegevens met een hoog risico

De aanpak van de goudpijplijn heeft al reële gevolgen.

Platform voor evenementenbeheer GELOFTE het afhandelen van belangrijke evenementen voor organisaties zoals LEUK VINDEN evenals diverse sportorganisaties. Wanneer GLAAD een evenement plant, worden gegevens verzameld over sponsoruitnodigingen, kaartaankopen, tafels, stoelen en meer. Het proces verloopt snel en de consistentie van de gegevens is niet onderhandelbaar.

“Onze data zijn complexer dan het gemiddelde platform”, zegt Jennifer Brisman, CEO van VOW, tegen VentureBeat. “Wanneer GLAAD een evenement plant, worden gegevens verzameld over sponsoruitnodigingen, kaartaankopen, tafels en stoelen en meer. En het moet allemaal heel snel gebeuren.”

VOW schrijft handmatig een regex-script. Toen het bedrijf besloot een door AI gegenereerde plattegrondfunctie te bouwen die gegevens vrijwel in realtime bijwerkt en informatie op verschillende platforms invult, werd het garanderen van de nauwkeurigheid van de gegevens van cruciaal belang. Golden Pipelines automatiseert het proces van het extraheren van gegevens uit vaak rommelige, inconsistente en ongestructureerde plattegronden, formatteert en levert deze vervolgens zonder uitgebreide handmatige inspanningen tussen technische teams.

VOW gebruikte Empromptu aanvankelijk voor door AI gegenereerde plattegrondanalyses die noch het AI-team van Google, noch het AI-team van Amazon konden voltooien. Het bedrijf herschrijft nu zijn volledige platform op het Empromptu-systeem.

Wat dit betekent voor de adoptie van AI in ondernemingen

Golden pipelines richten zich op een specifiek implementatiepatroon: organisaties die geïntegreerde AI-applicaties bouwen waarbij datavoorbereiding momenteel een handmatig knelpunt is tussen prototype en productie.

Deze aanpak is minder zinvol voor teams die al een volwassen data-engineeringorganisatie hebben met gevestigde ETL-processen die zijn geoptimaliseerd voor hun specifieke domein, of voor organisaties die op zichzelf staande AI-modellen bouwen in plaats van geïntegreerde applicaties.

De beslissing is of datavoorbereiding de snelheid van AI in de organisatie belemmert. Als een datawetenschapper een dataset aan het voorbereiden is voor een experiment, die het technische team vervolgens helemaal opnieuw opbouwt voor productie, kan geïntegreerde datavoorbereiding de leemte dichten.

Als zich elders in de AI-ontwikkelingscyclus knelpunten voordoen, zullen deze niet optreden. De wisselwerking is platformintegratie versus toolflexibiliteit. Teams die gouden pijplijnen gebruiken, committeren zich aan een geïntegreerde aanpak waarbij datavoorbereiding, AI-applicatieontwikkeling en beheer op één platform worden gedaan. Organisaties die er de voorkeur aan geven om voor elke functie de beste tool samen te stellen, zullen die aanpak beperkt vinden. Het voordeel is dat het schakelen tussen datavoorbereiding en applicatieontwikkeling overbodig wordt. De kosten worden verlaagd door keuzes in de manier waarop deze functies worden geïmplementeerd.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in