Home Nieuws Nvidia heeft zojuist toegegeven dat het tijdperk van algemene GPU’s voorbij is

Nvidia heeft zojuist toegegeven dat het tijdperk van algemene GPU’s voorbij is

4
0
Nvidia heeft zojuist toegegeven dat het tijdperk van algemene GPU’s voorbij is

Nvidia’s strategische licentieovereenkomst ter waarde van $20 miljard met Groq vertegenwoordigt een van de eerste duidelijke stappen in een strijd op vier fronten over de AI-stack van de toekomst. In 2026 worden deze problemen duidelijk voor bedrijfsbouwers.

Voor de technische besluitvormers waarmee we elke dag praten – de mensen die AI-applicaties bouwen en de datapijplijnen die deze aandrijven – is deze deal een signaal dat het tijdperk van one-size-fits-all GPU’s als standaard AI-inferentie-antwoord voorbij is.

We gaan een tijdperk binnen gedesaggregeerde inferentiearchitectuurwaar silicium zelf in twee verschillende typen wordt opgesplitst om tegemoet te komen aan een wereld die grote contexten en onmiddellijke redenering vereist.

Waarom gevolgtrekking GPU-architecturen doormidden breekt

Om te begrijpen waarom Nvidia-CEO Jensen Huang een derde van zijn geld liet vallen rapporteerde een stapel geld van $60 miljard bij een licentieovereenkomst moet je kijken naar de existentiële dreiging die in het rapport van zijn bedrijf naar voren komt 92% marktaandeel..

De industrie bereikt eind 2025 een omslagpunt: voor het eerst wordt gevolgtrekking – de fase waarin getrainde modellen daadwerkelijk worden uitgevoerd – overtreft training in termen van totale datacenterinkomstenaldus Deloitte. In deze nieuwe ‘Inference Flip’ zijn de statistieken veranderd. Hoewel nauwkeurigheid de hoeksteen blijft, is er nu een strijd gaande over de latentie en het vermogen om de ‘status’ van autonome agenten te behouden.

Er zijn vier aspecten in de strijd, en elk aspect leidt tot dezelfde conclusie: werklasten voor gevolgtrekkingen fragmenteren sneller dan GPU’s kunnen generaliseren.

1. GPU in tweeën splitsen: vooraf invullen versus decoderen

Gavin Baker, een investeerder in Groq (en daardoor bevooroordeeld, maar ook zeer goed thuis in de architectuur), samengevat de kern van de Groq-deal is duidelijk: “Inferentie wordt opgesplitst in prefill en decode.”

Voorvullen En decoderen zijn twee verschillende fases:

  • Voorlaadfase: Beschouw dit als de ‘snelle’ fase van de gebruiker. Het model moet grote hoeveelheden gegevens verwerken (of het nu gaat om een ​​codebasis van 100.000 regels of een video van een uur) en contextueel begrip berekenen. Dit is “berekeningsgebonden”, waarbij enorme matrixvermenigvuldigingen nodig zijn waar Nvidia GPU’s historisch gezien erg goed in zijn geweest.

  • Generatie (decodering) fase: Dit is een echte token-voor-token ‘generatie’. Zodra de opdrachten zijn opgenomen, genereert het model één woord (of token) tegelijk, waarbij elk woord terug in het systeem wordt ingevoerd om het volgende woord te voorspellen. Dit is “geheugenbandbreedte gebonden”. Als gegevens niet snel genoeg van het geheugen naar de processor kunnen worden overgebracht, zal het model haperen, hoe krachtig de GPU ook is. (Dit is waar Nvidia zwak is, en dit is waar de Groq speciale taalverwerkingseenheid (LPU) en het bijbehorende SRAM-geheugen schitteren. Daarover later meer.)

Nvidia heeft aankondigen wat er gaat komen Vera Rubin chips familie die hij speciaal ontwierp om met deze verdeeldheid om te gaan. Dat Rubin CPX Deze familie van componenten is een aangewezen “preload”-werkpaard, geoptimaliseerd voor grote contextvensters met 1 miljoen tokens of meer. Om deze schaalgrootte tegen een betaalbare prijs aan te kunnen, vermijdt het bedrijf enorme kosten geheugen met hoge bandbreedte (HBM) – Nvidia’s huidige gouden standaardgeheugen dat direct naast de GPU-chip zit – en in plaats daarvan een nieuw soort geheugen van 128 GB gebruikt, GDDR7. Hoewel HBM extreme snelheid biedt (hoewel niet zo snel als Groq statisch willekeurig toegankelijk geheugen (SRAM), is het aanbod op GPU’s beperkt en zijn de kosten onbetaalbaar om te schalen; GDDR7 biedt een meer kosteneffectieve manier om grote datasets op te nemen.

Ondertussen zal het silicium met ‘Groq-smaak’, dat Nvidia integreert in zijn routekaart voor gevolgtrekkingen, dienen als een snelle ‘decodeer’-engine. Het gaat over het neutraliseren van bedreigingen van alternatieve architecturen zoals Google’s TPU en het behouden van zijn dominantie CUDA, Het software-ecosysteem van Nvidia dat al meer dan tien jaar de belangrijkste gracht is.

Dit alles was genoeg voor Baker, een Groq-investeerder, om te voorspellen dat Nvidia’s stap om Groq in licentie te geven ertoe zou leiden dat alle andere speciale AI-chips zouden worden geannuleerd – dat wil zeggen, buiten Google’s TPU, Tesla’s AI5 en AWS’s Trainium.

2. Gedifferentieerd SRAM-vermogen

De essentie van Groq-technologie is SRAM. In tegenstelling tot de DRAM in uw pc of de HBM op de Nvidia H100 GPU, is SRAM rechtstreeks in de processorlogica ingebed.

Michael Stewart, managing partner bij Microsoft’s durffonds M12, beschrijft SRAM als het beste voor het verplaatsen van gegevens over korte afstanden met minimale energie. “De energie om een ​​beetje te bewegen in SRAM is ongeveer 0,1 picojoule of minder”, zei Stewart. “Het verplaatsen tussen DRAM en de processor is 20 tot 100 keer erger.”

In de wereld van 2026, waarin agenten in realtime moeten redeneren, fungeert SRAM als het ultieme ‘kladblok’: een snelle werkruimte waar modellen symbolische bewerkingen en complexe redeneerprocessen kunnen manipuleren zonder de ‘verspilde cycli’ van het wisselen van extern geheugen.

SRAM heeft echter een groot nadeel: het is fysiek groot en duur om te produceren, waardoor de capaciteit beperkt is in vergelijking met DRAM. Dit is waar Val Bercovici, chief AI officer bij Weka, een ander bedrijf dat geheugen voor GPU’s aanbiedt, naar marktsegmentatie kijkt.

Groq-vriendelijke AI-workloads – waarbij SRAM een voordeel heeft – zijn workloads die kleine modellen gebruiken met 8 miljard parameters en minder, zei Bercovici. Maar dit is geen kleine markt. “Dat zijn gewoon gigantische marktsegmenten die Nvidia niet bedient, namelijk edge inference, lage latentie, robotica, spraak, IoT-apparaten – dingen die we op onze telefoons willen draaien zonder de cloud voor gemak, prestaties of privacy”, zei hij.

De ‘sweet spot’ van 8B is belangrijk omdat er in 2025 een explosie zal plaatsvinden modeldistillatiewaar veel grote bedrijven gevestigd zijn het verkleinen van grote modellen tot kleine, zeer efficiënte versies. Hoewel SRAM onpraktisch is voor “frontier”-modellen met een biljoen parameters, is het zeer geschikt voor kleinere, snelle modellen.

3. Antropische dreiging: de opkomst van ‘portable stacks’

Misschien wel de meest ondergewaardeerde drijfveer van deze deal is het succes van Anthropic bij het draagbaar maken van zijn stack via accelerators.

Het bedrijf heeft pionierde met de draagbare technische aanpak voor training en gevolgtrekking – in wezen een softwarelaag waarmee Claude-modellen over meerdere families van AI-versnellers kunnen draaien – inclusief Nvidia GPU’s en Google Ironwood TPU. Tot nu toe werd de dominantie van Nvidia beschermd omdat het runnen van krachtige modellen buiten de stapel van Nvidia een technische nachtmerrie was. “Dit is Antropis,” vertelde Bercovici van Weka me. “Het feit dat Anthropic erin slaagde een softwarestack te bouwen die zowel op TPU’s als op GPU’s kan draaien, wordt volgens mij niet genoeg gewaardeerd op de markt.”

(Openbaarmaking: Weka is sponsor geworden van het VentureBeat-evenement.)

Anthropic heeft onlangs toegezegd toegang te krijgen tot 1 miljoen TPU van Google, wat neerkomt op meer dan één gigawatt aan rekencapaciteit. Deze multi-platform aanpak zorgt ervoor dat het bedrijf niet gegijzeld wordt door Nvidia’s prijs- of aanbodbeperkingen. Voor Nvidia is de Groq-deal dus ook een defensieve zet. Door de ultrasnelle inferentie-IP van Groq te integreren, zorgt Nvidia ervoor dat de meest prestatiegevoelige workloads – zoals workloads met kleine modellen of als onderdeel van real-time agents – kunnen worden ondergebracht binnen Nvidia’s CUDA-ecosysteem, zelfs als concurrenten proberen over te schakelen naar Google’s Ironwood TPU’s. CUDA is speciale software die Nvidia aan ontwikkelaars levert voor het integreren van GPU’s.

4. Oorlog van ‘staatsagenten’: Manus en KV Cache

De timing van deze Groq-deal valt samen met Meta’s overname van een baanbrekende agent manus nog maar twee dagen geleden. De betekenis van Manus is deels zijn obsessie staatsmanschap.

Als een agent zich niet meer kan herinneren wat hij tien stappen geleden heeft gedaan, is het nutteloos voor echte taken zoals marktonderzoek of softwareontwikkeling. KV-cache (sleutelwaardecache) is het ‘kortetermijngeheugen’ dat de LLM opbouwt tijdens de initiële oplaadfase.

manus gemeld dat voor agenten op productieniveau, de verhouding tussen invoertokens en uitvoertokens kan 100:1 bereiken. Dat wil zeggen dat elk woord dat de agent zegt, 100 andere woorden ‘denkt’ en ‘onthoudt’. In deze omgeving is het slagingspercentage van KV Cache de belangrijkste maatstaf voor productieagenten, aldus Manus. Als de cache uit het geheugen wordt ‘verwijderd’, raakt de agent zijn gedachtegang kwijt en zal het model grote hoeveelheden energie moeten verbranden om zijn opdrachten opnieuw te berekenen.

De SRAM Groq zou een “startpunt” kunnen zijn voor deze agenten – hoewel wederom vooral voor kleinere modellen – omdat het mogelijk maakt dat die status in de nabije toekomst kan worden ingenomen. Gecombineerd met eigendom van Nvidia Dynamo kader en KVBM bouwt Nvidia een “inferentiebesturingssysteem” dat deze status kan samenvoegen over SRAM, DRAM en andere op flash gebaseerde aanbiedingen zoals die van Weka Bercovici.

Thomas Jorgensen, senior directeur Technology Enablement bij Supermicro, gespecialiseerd in het bouwen van GPU-clusters voor grote ondernemingen, vertelde me in september dat rekenkracht niet langer het belangrijkste knelpunt is voor geavanceerde clusters. Gegevens naar de GPU krijgen is het knelpunt, en om dat knelpunt te doorbreken is geheugen nodig.

“Het hele cluster is nu een computer”, zegt Jorgensen. “Het netwerk wordt een intern onderdeel van het beest… het beest voeden met data wordt steeds moeilijker naarmate de bandbreedte tussen GPU’s sneller groeit dan wat dan ook.”

Dit is de reden waarom Nvidia gedesaggregeerde gevolgtrekking heeft geïmplementeerd. Door werklasten te scheiden, kunnen bedrijfsapplicaties speciale opslaglagen gebruiken om gegevens te injecteren met prestaties van geheugenklasse, terwijl speciaal ‘Groq-inside’ silicium de snelle tokengeneratie afhandelt.

Oordeel voor 2026

We betreden een tijdperk van extreme specialisatie. Tientallen jaren lang konden gevestigde exploitanten winnen door één dominante architectuur voor gemengd gebruik te leveren – en hun blinde vlekken waren vaak de blinde vlekken die ze over het hoofd zagen. Intel’s al lang bestaande minachting voor laag energieverbruik is een klassiek voorbeeld, vertelde Michael Stewart, managing partner bij Microsoft’s M12 venture fund, mij. Nvidia liet weten die fout niet te zullen herhalen. “Zelfs als leiders, zelfs de leeuwen van de jungle, talent en technologie krijgen, is dat een teken dat de hele markt meer keuze wil”, aldus Stewart.

Voor technische leiders is de boodschap: stop met het ontwerpen van je stapel als één plank, één accelerator, één antwoord. In 2026 zal het voordeel gaan naar teams die de werklast expliciet labelen – en deze naar de juiste niveaus leiden:

  • prefill-zwaar versus decode-zwaar

  • lange versus lange context, korte context

  • interactieve versus interactieve batches

  • kleine modellen versus groot model

  • randbeperkingen versus datacenteraannames

Jouw architectuur zal deze labels volgen. In 2026 zal de ‘GPU-strategie’ niet langer een aankoopbeslissing zijn, maar een routeringsbeslissing. Winnaars vragen niet welke fiches ze hebben gekocht; ze vragen waar elk token is uitgevoerd en waarom.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in