Het verlagen van de kosten van inferentie is meestal een combinatie van hardware en software. Nieuwe analyse die donderdag door Nvidia is vrijgegeven, geeft aan hoe vier toonaangevende aanbieders van inferentiekosten per token kostenbesparingen van 4x tot 10x rapporteerden.
Er werden dramatische kostenbesparingen bereikt door Nvidia’s Blackwell-platform te gebruiken met een open source-model. Gegevens over de productie-implementatie van Baseten, DeepInfra, Fireworks AI en Together AI laten aanzienlijke kostenstijgingen zien in de gezondheidszorg, gaming, chat met agenten en klantenservice, nu bedrijven AI opschalen van proefprojecten naar miljoenen gebruikers.
De 4x tot 10x kostenbesparingen gerapporteerd door inferentieleveranciers vereisen het combineren van Blackwell-hardware met twee andere elementen: een geoptimaliseerde softwarestack en een verschuiving van een eigen model naar een open source-model dat nu compatibel is met geavanceerde intelligentie. Volgens de analyse bieden hardwareverbeteringen alleen al bij sommige implementaties een dubbel voordeel. Om grotere kostenbesparingen te realiseren, zijn formaten met lage precisie, zoals NVFP4, nodig en moeten we afstappen van gesloten source-API’s die een premie vragen.
Economie is contra-intuïtief gebleken. Het verlagen van de gevolgtrekkingskosten vereist investeringen in infrastructuur met hogere prestaties, omdat een grotere doorvoer zich direct vertaalt in lagere kosten per token.
“Het zijn de prestaties die de kosten van inferentie verlagen”, vertelde Dion Harris, senior director van HPC en AI hyperscaler-oplossingen bij Nvidia, aan VentureBeat in een exclusief interview. “Wat we uiteindelijk zien, is dat de doorvoer zich letterlijk vertaalt in echte dollarwaarde en lagere kosten.”
Productie-implementaties laten 4x tot 10x kostenbesparingen zien
Nvidia heeft in een blogpost vier klantimplementaties gedetailleerd beschreven, waarin wordt getoond hoe de combinatie van de Blackwell-infrastructuur, een geoptimaliseerde softwarestack en een open source-model kostenbesparingen oplevert voor een breed scala aan industriële workloads. Deze casestudy heeft betrekking op een grootschalige toepassing waarbij inferentie-economie rechtstreeks de levensvatbaarheid van een bedrijf bepaalt.
Volgens Nvidia heeft Sully.ai de kosten voor AI-inferentie in de gezondheidszorg met 90% verlaagd (een reductie van 10x), terwijl de responstijd met 65% is verbeterd door over te stappen van een eigen model naar een open source-model dat draait op het Blackwell-platform van Baseten. Het bedrijf leverde meer dan 30 miljoen minuten aan artsen door medische codering en registratietaken te automatiseren waarvoor voorheen handmatige gegevensinvoer nodig was.
Nvidia meldde ook dat Latitude de kosten voor game-inferentie met een factor vier verlaagde voor zijn Dungeon AI-platform door een combinatie van experts (MoE)-modellen op schaal uit te voeren op de DeepInfra-implementatie van Blackwell. De kosten per miljoen tokens daalden van 20 cent op Nvidia’s vorige Hopper-platform naar 10 cent op Blackwell en vervolgens naar 5 cent na het adopteren van Blackwell’s eigen NVFP4-formaat met lage precisie. Hardware alleen zorgt voor een verbetering van 2x, maar voor het bereiken van 4x zijn nauwkeurige formaatwijzigingen nodig.
Sentient Foundation behaalde volgens Nvidia een 25% tot 50% betere kostenefficiëntie voor zijn agent-chatplatform met behulp van een Fireworks AI-inferentiestapel die is geoptimaliseerd voor Blackwell. Het platform beheerde complexe workflows met meerdere agenten en verwerkte 5,6 miljoen vragen in één week tijdens de virale lancering, terwijl de latentie laag bleef.
Nvidia zei dat Decagon een kostenbesparing van zes keer per verzoek voor AI-aangedreven spraakklantenondersteuning heeft gerealiseerd door een multi-modellenstack op de Together AI-infrastructuur van Blackwell te draaien. De responstijden blijven onder de 400 milliseconden, zelfs bij het verwerken van duizenden tokens per zoekopdracht, wat belangrijk is voor spraakinteracties waarbij vertragingen ervoor zorgen dat gebruikers ophangen of het vertrouwen verliezen.
Technische factoren zorgen voor 4x versus 10x verbeteringen
Het bereik van 4x tot 10x kostenbesparingen bij implementaties weerspiegelt verschillende combinaties van technische optimalisaties, en niet alleen hardwareverschillen. Drie factoren kwamen naar voren als belangrijkste drijfveren: de acceptatie van precisieformaten, de keuze van de modelarchitectuur en de integratie van softwarestacks.
Het precisieformaat laat de duidelijkste impact zien. De Latitude-zaak laat dit direct zien. De overstap van Hopper naar Blackwell resulteerde in een tweevoudige kostenbesparing dankzij hardwareverbeteringen. Door gebruik te maken van NVFP4, het oorspronkelijke lage-precisieformaat van Blackwell, wordt die verbetering verdubbeld tot een totaal van 4x. NVFP4 vermindert het aantal bits dat nodig is om modelgewichten en activeringen weer te geven, waardoor meer berekeningen per GPU-cyclus mogelijk zijn terwijl de nauwkeurigheid behouden blijft. Dit formaat werkt het beste voor het model van het Ministerie van Milieu, waarbij slechts een deel van het model wordt geactiveerd voor elk gevolgtrekkingsverzoek.
Modelarchitectuur is belangrijk. MoE-modellen, die verschillende aangepaste submodellen activeren op basis van input, maken gebruik van de NVLink-structuur van Blackwell die snelle communicatie tussen experts mogelijk maakt. “Door experts te laten communiceren via de NVLink-structuur kun je heel snel denken”, aldus Harris. Dichte modellen die alle parameters voor elke gevolgtrekking mogelijk maken, maken geen effectief gebruik van deze architectuur.
Integratie van softwarestacks creëert extra prestatiedelta’s. Harris zei dat de co-designaanpak van Nvidia – waarbij Blackwell-hardware, de NVL72-upgradearchitectuur en software zoals Dynamo en TensorRT-LLM samen worden geoptimaliseerd – ook een verschil maakte. Baseten’s implementatie voor Sully.ai maakt gebruik van deze geïntegreerde stack, waarbij NVFP4, TensorRT-LLM en Dynamo worden gecombineerd om een kostenbesparing van 10x te realiseren. Aanbieders die alternatieve raamwerken gebruiken, zoals vLLM, kunnen mogelijk een lager rendement behalen.
Belangrijke kenmerken van de werklast. Het redeneermodel vertoont bijzondere voordelen in Blackwell omdat het aanzienlijk meer tokens genereert om tot betere antwoorden te komen. Het vermogen van het platform om deze uitgebreide set tokens efficiënt te verwerken via gedesaggregeerde weergave, waarbij het vooraf invullen van de context en het genereren van tokens afzonderlijk worden afgehandeld, maakt de redeneringswerklast kosteneffectief.
Teams die potentiële kostenbesparingen evalueren, moeten hun werklastprofiel aan deze factoren toetsen. Hoge werklasten voor het genereren van tokens met behulp van een expertmixmodel met een geïntegreerde Blackwell-softwarestack zullen het bereik van 10x benaderen. Lagere tokenvolumes met behulp van compacte modellen op alternatieve raamwerken zouden bijna 4x zijn.
Wat teams moeten testen voordat ze migreren
Hoewel deze casestudy zich richt op een Nvidia Blackwell-implementatie, heeft het bedrijf veel manieren om de gevolgtrekkingskosten te verlagen. AMD’s MI300-serie, Google TPU en aangepaste inferentieversnellers van Groq en Cerebras bieden alternatieve architecturen. Cloudproviders blijven ook hun inferentiediensten optimaliseren. De vraag is niet of Blackwell de enige keuze is, maar of de specifieke combinatie van hardware, software en model past bij de behoeften van een bepaalde werklast.
Bedrijven die op Blackwell gebaseerde inferentie overwegen, moeten beginnen met berekenen of hun werklast veranderingen in de infrastructuur kan rechtvaardigen.
“Bedrijven moeten terugwerken aan de werklast, gebruiksscenario’s en kostenbeperkingen”, zegt Shruti Koparkar, AI-productmarketing bij Nvidia, tegen VentureBeat.
De implementaties die deze verbeteringen van zes tot tien keer hebben bereikt, hadden allemaal betrekking op latentiegevoelige applicaties met een hoog volume die elke maand miljoenen verzoeken verwerken. Teams die lagere volumes of applicaties draaien met een latentiebudget van meer dan één seconde moeten software-optimalisatie of modelwisseling onderzoeken voordat ze infrastructuurupgrades overwegen.
Testen is belangrijker dan specificaties van leveranciers. Koparkar benadrukte dat providers doorvoer- en latentiestatistieken publiceren, maar dat dit ideale omstandigheden zijn.
“Als de werklast bijzonder gevoelig is voor latentie, willen ze misschien meerdere providers testen om te zien wie aan de minimumvereisten voldoet en tegelijkertijd de kosten laag houden”, zei hij. Het team moest daadwerkelijke productieworkloads uitvoeren bij meerdere Blackwell-providers om de prestaties in de echte wereld te meten op basis van specifieke gebruikspatronen en verkeerspieken in plaats van te vertrouwen op gepubliceerde benchmarks.
De stapsgewijze aanpak die Latitude gebruikt, biedt een evaluatiemodel. Het bedrijf wendde zich eerst tot Blackwell-hardware en mat een 2x verbetering, en adopteerde vervolgens het NVFP4-formaat om een totale 4x reductie te bereiken. Teams die zich momenteel op Hopper of een andere infrastructuur bevinden, kunnen testen of precisieformaatwijzigingen en software-optimalisaties op bestaande hardware tot aanzienlijke besparingen leiden voordat ze een volledige infrastructuurmigratie ondernemen. Het uitvoeren van een open source-model op bestaande infrastructuur kan resulteren in de helft van de potentiële kostenbesparing zonder te investeren in nieuwe hardware.
Providerselectie vereist inzicht in de verschillen in softwarestacks. Hoewel veel providers Blackwell-infrastructuur aanbieden, variëren de software-implementaties. Sommigen gebruiken de geïntegreerde stack van Nvidia met Dynamo en TensorRT-LLM, terwijl anderen frameworks zoals vLLM gebruiken. Harris erkende een prestatieverschil tussen deze configuraties. Teams moeten evalueren wat elke provider daadwerkelijk gebruikt en hoe dit aansluit bij hun werklastbehoeften, in plaats van aan te nemen dat alle Blackwell-implementaties hetzelfde presteren.
De economische vergelijking gaat verder dan de kosten per token. Toegewijde inferentieproviders zoals Baseten, DeepInfra, Fireworks en Together bieden geoptimaliseerde implementaties, maar vereisen aanvullend leveranciersrelatiebeheer. Beheerde services van AWS, Azure of Google Cloud kunnen hogere kosten per token hebben, maar een lagere operationele complexiteit. Teams moeten de totale kosten berekenen, inclusief operationele overhead, en niet alleen de gevolgtrekkingsprijzen, om te bepalen welke aanpak voor hun specifieke situatie betere economische resultaten oplevert.


