Wanneer Eén grote, mooie rekening Het TurboTax-team van Intuit kwam in de vorm van een ongestructureerd document van 900 pagina’s – zonder standaardschema’s, zonder gepubliceerde IRS-formulieren en strenge deadlines voor indiening – en had een vraag: kon AI een maandenlange implementatie in een paar dagen comprimeren zonder aan nauwkeurigheid in te boeten?
Wat ze hiervoor bouwden was geen belastingverhaal, maar eerder een sjabloon, een workflow die commerciële AI-tools combineerde, een domeinspecifieke taal en een aangepast raamwerk voor het testen van eenheden dat een ontwikkelteam kon leren met een beperkt domein.
Joy Shaw, belastingdirecteur bij Intuit, heeft meer dan dertig jaar bij het bedrijf gewerkt en heeft beide meegemaakt Wet op belastingverlagingen en banen en OBBB. “Er was veel ruis in de wet zelf en we konden de fiscale implicaties wegnemen, beperken tot individuele belastingbepalingen en beperken tot onze klanten”, vertelde Shaw aan VentureBeat. “Dat soort distillatie ging heel snel met behulp van hulpmiddelen, waardoor we konden beginnen met coderen voordat we zelfs maar de formulieren en instructies hadden.”
Hoe OBBB zijn normen verhoogt
Toen in 2017 de Tax Cuts and Jobs Act werd aangenomen, werkte het TurboTax-team aan de wetgeving zonder de hulp van AI. Het duurde maanden en de nauwkeurigheidseisen lieten geen ruimte voor sluiproutes.
“Vroeger moesten we het statuut bestuderen en secties coderen die verwezen naar andere secties van de wettelijke code en proberen het zelf uit te zoeken”, zei Shaw.
OBBB wordt geleverd met dezelfde nauwkeurigheidseisen, maar met een ander profiel. Met meer dan 900 pagina’s is de structuur complexer dan die van de TCJA. Het wordt geleverd als een ongestructureerd document zonder standaardschema. De versies van het Huis en de Senaat gebruiken verschillende bewoordingen om dezelfde bepalingen te beschrijven. En teams moeten met de implementatie beginnen voordat de IRS officiële formulieren of instructies uitgeeft.
De vraag is of AI-tools de tijdlijn kunnen comprimeren zonder de resultaten in gevaar te brengen. Het antwoord vereist een specifieke volgorde en apparatuur die nog niet bestaat.
Van ongestructureerde documenten tot domeinspecifieke code
De OBBB was nog steeds bezig met zijn weg door het Congres toen het TurboTax-team eraan begon te werken. Met behulp van een groot taalmodel vatte het team de versie van het Huis van Afgevaardigden samen, vervolgens de versie van de Senaat, en verzoende vervolgens eventuele verschillen. Beide kamers verwijzen naar hetzelfde onderdeel van de belastingwetgeving, een consistent referentiepunt waarmee de modellen structureel inconsistente documenten kunnen vergelijken.
Op de dag van de ondertekening had het team de bepalingen gefilterd die van invloed waren op TurboTax-klanten, en deze beperkt tot specifieke belastingsituaties en klantprofielen. Het parseren, afstemmen en filteren van voorzieningen is verplaatst van weken naar uren.
Deze taken worden afgehandeld door ChatGPT en de LLM voor algemene doeleinden. Maar deze tools bereiken hun grenzen wanneer het werk zich verplaatst van analyse naar implementatie. TurboTax draait niet op standaard programmeertalen. De belastingberekeningsengine is gebouwd op een domeinspecifieke taal die intern bij Intuit wordt onderhouden. Elk model dat code voor een dergelijke codebase genereert, moet juridische tekst vertalen naar een syntaxis die nog niet eerder is getraind, en identificeren hoe nieuwe voorzieningen interageren met code die al tientallen jaren bestaat, zonder te breken met wat al werkt.
Claude werd het belangrijkste hulpmiddel voor dergelijk vertaal- en afhankelijkheidskarteringswerk. Shaw zei dat het kan identificeren wat er is veranderd en wat niet, waardoor ontwikkelaars zich uitsluitend op de nieuwe bepalingen kunnen concentreren. “Het is in staat om te integreren met dingen die niet veranderen en afhankelijkheden te identificeren van dingen die veranderen”, zei hij. “Dit versnelt het ontwikkelingsproces en zorgt ervoor dat we ons alleen kunnen concentreren op de dingen die wel veranderen.”
Bouwtools zijn aangepast tot een foutdrempel van bijna nul
Een LLM voor algemene doeleinden zorgt ervoor dat teams werkende code implementeren. Om de code te kunnen leveren, zijn er twee eigen tools nodig die tijdens de OBBB-cyclus zijn gemaakt.
Het eerste TurboTax-product dat is gemaakt om automatisch rechtstreeks te screenen op wetswijzigingen. Voorheen stelden ontwikkelaars deze schermen één voor één samen voor elke aandoening. De nieuwe tool verwerkt het meeste automatisch, met handmatige aanpassingen alleen wanneer dat nodig is.
De tweede is een op maat gemaakt raamwerk voor het testen van eenheden. Intuit had altijd geautomatiseerde tests uitgevoerd, maar het vorige systeem retourneerde alleen maar geslaagde/mislukte resultaten. Wanneer een test mislukt, moet de ontwikkelaar het belastingaangiftegegevensbestand handmatig openen om de oorzaak op te sporen. “Automatisering zal je vertellen of je slaagt of faalt, je moet in de feitelijke belastinggegevens duiken om te zien wat er mis kan zijn”, zei Shaw. Het nieuwe raamwerk identificeert de specifieke codesegmenten die verantwoordelijk zijn, genereert uitleg en maakt het mogelijk correcties aan te brengen binnen het raamwerk zelf.
Shaw zei dat de nauwkeurigheid van consumentenbelastingproducten bijna 100 procent zou moeten zijn. Sarah Aerni, vice-president technologie van de Consumer Group van Intuit, zei dat de architectuur deterministische resultaten moet opleveren. “Het hebben van capaciteiten die voldoen aan het determinisme en die kunnen worden geverifieerd door middel van testen – dat is wat tot dat soort vertrouwen leidt,” zei Aerni.
Tooling zorgt voor snelheid. Maar Intuit gebruikt ook op LLM gebaseerde evaluatietools om door AI gegenereerde output te valideren, en zelfs voor die tools zijn menselijke belastingexperts nodig om te beoordelen of de resultaten correct zijn. “Het is afhankelijk van menselijke expertise om alles te kunnen valideren en verifiëren”, zegt Aerni.
Vier componenten die elk gereguleerd industrieteam kan gebruiken
OBBB is een fiscaal probleem, maar de onderliggende omstandigheden doen zich niet alleen voor bij de belastingheffing. Teams in de gezondheidszorg, financiële dienstverlening, juridische technologie en overheidscontractanten worden vaak met dezelfde combinatie geconfronteerd: complexe regelgevingsdocumenten, strakke deadlines, bedrijfseigen codebases en een vrijwel nulfouttolerantie.
Op basis van de implementatie van Intuit kunnen vier workflow-elementen worden overgedragen naar andere ontwikkelomgevingen met een beperkt domein:
-
Gebruik een commerciële LLM voor documentanalyse. Het model voor algemene doeleinden verwerkt het parseren, afstemmen en filteren van de inrichting goed. Dat is waar ze snelheid toevoegen zonder de nauwkeurigheid in gevaar te brengen.
-
Schakel over naar domeinbewuste tools naarmate analyse implementatie wordt. Modellen voor algemene doeleinden die code produceren in een propriëtaire omgeving zonder deze te begrijpen, zullen onbetrouwbare uitvoer op schaal produceren.
-
Bouw evaluatie-infrastructuur vóór de deadline, niet tijdens de sprint. Generieke geautomatiseerde tests produceren een geslaagd/mislukt resultaat. Domeinspecifieke testtools die fouten identificeren en herstel mogelijk maken in de context van het verzendbaar maken van door AI gegenereerde code.
-
Implementeer AI-tools in de hele organisatie, niet alleen op de technische kant. Shaw zei dat Intuit het gebruik van alle functies traint en bewaakt. De vaardigheid van AI is verspreid over de hele organisatie, in plaats van geconcentreerd bij early adopters.
“We blijven hier de mogelijkheden van AI en menselijke intelligentie benutten, zodat onze klanten krijgen wat ze nodig hebben uit de ervaringen die we opbouwen”, aldus Aerni.


