Wanneer een AI-agent midden in een taak de context verliest omdat traditionele opslag de gevolgtrekkingen niet kan bijhouden, is dit geen modelprobleem; het is een opslagprobleem. Op GTC 2026 kondigde Nvidia BlueField-4 STX aan, een modulaire referentiearchitectuur die een contextspecifieke geheugenlaag tussen de GPU en traditionele opslag invoegt, waarbij een 5x tokendoorvoer, 4x energie-efficiëntie en 2x data-opnamesnelheid wordt geclaimd ten opzichte van conventionele CPU-gebaseerde opslag.
Het STX-knelpuntdoel is cachegegevens met sleutelwaarden. De KV-cache is een opgeslagen record van wat het model heeft verwerkt: tussentijdse berekeningen die LLM opslaat, zodat het niet bij elke gevolgtrekkingsstap de zorgen over verschillende contexten opnieuw hoeft te berekenen. Hierdoor kan de agent een samenhangend werkgeheugen behouden tijdens sessies, tooloproepen en redeneerstappen. Naarmate het contextvenster groter wordt en de agent meer stappen zet, groeit de cache mee. Wanneer het traditionele opslagpaden moet doorlopen om terug te keren naar de GPU, wordt de inferentie langzamer en neemt het GPU-gebruik af.
STX is geen product dat rechtstreeks door Nvidia wordt verkocht. Dit is een referentiearchitectuur die het bedrijf distribueert naar zijn ecosysteem van opslagpartners, zodat leveranciers er een native AI-infrastructuur omheen kunnen bouwen.
STX plaatst een contextgeheugenlaag tussen de GPU en de schijf
De architectuur is gebouwd rond een nieuwe, voor opslag geoptimaliseerde BlueField-4-processor die Nvidia’s Vera CPU combineert met een ConnectX-9 SuperNIC. Het draait op een Spectrum-X Ethernet-netwerk en kan worden geprogrammeerd via Nvidia’s DOCA-softwareplatform.
De eerste implementatie op rackschaal was het Nvidia CMX-contextgeheugenopslagplatform. CMX breidt het GPU-geheugen uit met een krachtige contextlaag die speciaal is ontworpen voor het opslaan en ophalen van KV-cachegegevens die zijn gegenereerd door grote taalmodellen tijdens inferentie. De cache toegankelijk houden zonder een heen- en terugreis door opslag voor algemene doeleinden te forceren, is waar CMX voor is ontworpen.
“Traditionele datacenters bieden opslag met hoge capaciteit voor algemene doeleinden, maar missen over het algemeen de responsiviteit die nodig is om te communiceren met AI-agents die in veel verschillende stappen, tools en sessies moeten werken”, zei Ian Buck, Nvidia’s vice-president van hyperscale en high-performance computing in een briefing met pers en analisten.
In antwoord op vragen van VentureBeat bevestigde Buck dat de STX ook wordt geleverd met een softwarereferentieplatform en een hardware-architectuur. Nvidia heeft DOCA uitgebreid met een nieuwe component die in de briefing DOCA Memo wordt genoemd.
“Onze opslagproviders kunnen de programmeerbaarheid van de BlueField-4-processor benutten om de opslag voor agent AI-fabrieken te optimaliseren”, aldus Buck. “Naast dat we een referentie-rackarchitectuur hebben, bieden we hen ook een referentiesoftwareplatform waarmee ze die innovatie en optimalisatie aan hun klanten kunnen leveren.”
Opslagpartners die op STX zijn gebouwd, krijgen een hardwarereferentieontwerp en een softwarereferentieplatform: een programmeerbare basis voor contextgeoptimaliseerde opslag.
Nvidia’s lijst met partners omvat oudere opslagbedrijven en AI-native cloudproviders
Opslagproviders die samen een op STX gebaseerde infrastructuur ontwerpen, zijn onder meer Cloudian, DDN, Dell Technologies, Everpure, Hitachi Vantara, HPE, IBM, MinIO, NetApp, Nutanix, VAST Data en WEKA. Productiepartners die op STX gebaseerde systemen bouwen, zijn onder meer AIC, Supermicro en Quanta Cloud Technology.
Aan de cloud- en AI-kant hebben CoreWeave, Crusoe, IREN, Lambda, Mistral AI, Nebius, Oracle Cloud Infrastructure en Vultr zich allemaal gecommitteerd aan STX voor contextgeheugenopslag.
De combinatie van een gevestigde onderneming op het gebied van opslag en een AI-native cloudprovider is een signaal dat de moeite waard is om op te letten. Nvidia positioneert STX niet als een product specifiek voor hyperscalers. Ze positioneren het als de referentiestandaard voor iedereen die een opslaginfrastructuur bouwt die de AI-workloads van agenten moet bedienen – wat in de komende twee tot drie jaar waarschijnlijk verantwoordelijk zal zijn voor het merendeel van de AI-implementaties van ondernemingen met meerstapsgewijze inferentie op schaal.
Het op STX gebaseerde platform zal in de tweede helft van 2026 verkrijgbaar zijn bij partners.
IBM laat zien hoe datalaagproblemen er in de productie uitzien
IBM stond aan beide kanten van de STX-aankondiging. Het bedrijf staat vermeld als een opslagprovider die mede de STX-gebaseerde infrastructuur ontwerpt, en Nvidia heeft afzonderlijk bevestigd dat het IBM Storage Scale System 6000 – gecertificeerd en gevalideerd op het Nvidia DGX-platform – heeft geselecteerd als de krachtige opslagbasis voor zijn GPU-native analyse-infrastructuur.
IBM kondigde ook een bredere uitbreiding aan van zijn samenwerking met Nvidia op het gebied van GTC, inclusief GPU-versnelde integratie tussen IBM’s watsonx.data Presto SQL-engine en Nvidia’s cuDF-bibliotheek. Een productie proof of concept met Nestlé illustreert die versnelling: de dataverversingscycli op de Order-to-Cash datamarts van het bedrijf, die 186 landen en 44 tafels bestrijken, daalden van 15 minuten naar drie minuten. IBM rapporteert kostenbesparingen van 83% en prijs-prestatieverbeteringen van 30x.
Het resultaat voor Nestlé is een gestructureerde analyseworkload. Het geeft niet direct de inferentieprestaties van de agent aan. Maar dit maakt het gezamenlijke argument van IBM en Nvidia concreet: de datalaag is waar de AI-prestaties van ondernemingen momenteel beperkt zijn, en GPU-versnelling levert aanzienlijke productiewinsten op.
Waarom opslaglagen een eersteklas infrastructuurbeslissing zijn
STX is een signaal dat de opslaglaag een groot probleem is bij de planning van de AI-infrastructuur van ondernemingen, en niet alleen bij de aanschaf van GPU’s. NAS- en objectopslag voor algemeen gebruik zijn niet ontworpen om KV-cachegegevens te verwerken met gevolgtrekkingslatentievereisten. Op STX gebaseerde systemen van partners als Dell, HPE, NetApp en VAST Data zijn systemen die Nvidia heeft voorgesteld als een praktisch alternatief, waarbij het DOCA-softwareplatform een programmeerlaag biedt om het opslaggedrag aan te passen aan specifieke werklasten van agenten.
Prestatieclaims – 5x tokendoorvoer, 4x energie-efficiëntie, 2x data-opname – worden gemeten aan de hand van traditionele CPU-gebaseerde opslagarchitecturen. Nvidia heeft geen exacte basisconfiguratie opgegeven voor de vergelijking. Voordat de cijfers bepalend zijn voor beslissingen over de infrastructuur, is het een goed idee om de basisprincipes te kennen.
De samenwerking tussen de platforms zal naar verwachting in de tweede helft van 2026 plaatsvinden. Gezien het feit dat de meeste grote opslagleveranciers al mee aan het ontwerpen zijn voor STX, mogen bedrijven die de komende twaalf maanden opslagvernieuwingen voor de AI-infrastructuur evalueren, verwachten dat op STX gebaseerde opties beschikbaar zullen komen via hun bestaande leveranciersrelaties.

