Home Nieuws Nvidia’s Vera Rubin is nog maar een paar maanden verwijderd – Blackwell...

Nvidia’s Vera Rubin is nog maar een paar maanden verwijderd – Blackwell wordt nu sneller

2
0
Nvidia’s Vera Rubin is nog maar een paar maanden verwijderd – Blackwell wordt nu sneller

Het grote nieuws deze week van Nvidia, dat de krantenkoppen haalde in alle media, was de aankondiging van het bedrijf van zijn Vera Rubin GPU.

Deze week gebruikte Nvidia-CEO Jensen Huang zijn CES-keynote om de prestatiestatistieken voor de nieuwe chips te benadrukken. Volgens Huang is de Rubin GPU in staat tot 50 PFLOP’s aan NVFP4-inferentie en 35 PFLOP’s aan NVFP4-trainingsprestaties, wat neerkomt op 5x en 3,5x de prestaties van de Blackwell.

Maar dit zal pas in de tweede helft van 2026 beschikbaar zijn. Wat moeten bedrijven nu doen?

Blackwell wordt steeds beter

De Nvidia GPU-architectuur die momenteel wordt geleverd is Blackwell aangekondigd in 2024 als Hopper’s opvolger. Samen met de release benadrukte Nvidia dat de pijplijn voor productontwikkeling ook het maximaliseren van de prestaties van de vorige Grace Hopper-architectuur omvat.

Het is een richting die ook werkt voor Blackwell, met Vera Rubin later dit jaar.

“We blijven onze inferentie- en trainingsstack voor de Blackwell-architectuur optimaliseren”, vertelde Dave Salvator, productdirecteur van Accelerated Computing bij Nvidia, aan VentureBeat.

In dezelfde week dat Vera Rubin door de CEO van Nvidia werd aangeprezen als de krachtigste GPU ooit, publiceerde het bedrijf een nieuwe onderzoek toonde verbeterde Blackwell-prestaties aan.

Hoe Blackwell presteert, verbetert de gevolgtrekking met 2,8x

Nvidia kon de Blackwell GPU-prestaties in slechts drie maanden met maximaal 2,8x per GPU verhogen.

Deze prestatieverbeteringen komen voort uit een reeks innovaties die zijn toegevoegd aan de Nvidia TensorRT-LLM-inferentie-engine. Deze optimalisaties zijn van toepassing op bestaande hardware, waardoor de huidige Blackwell-implementaties een hogere doorvoer kunnen realiseren zonder hardwarewijzigingen.

Prestatieverbeteringen werden gemeten op DeepSeek-R1, een mengsel van experts (MoE)-model met 671 miljard parameters, waardoor 37 miljard parameters per token mogelijk zijn.

Onder de technische innovaties die voor betere prestaties zorgen:

  • Uitrol van programmatische afhankelijkheid (PDL): De uitgebreide implementatie vermindert de latentie bij het opstarten van de kernel, waardoor de doorvoer toeneemt.

  • Allesomvattende communicatie: De nieuwe implementatie van communicatieprimitieven elimineert tussenbuffers, waardoor de geheugenoverhead wordt verminderd.

  • Multi-token voorspelling (MTP): Genereert meerdere tokens per voorwaartse doorgang, in plaats van één voor één, waardoor de doorvoer over een breed scala aan reekslengtes toeneemt.

  • NVFP4-formaat: 4-bit floating point-formaat met hardwareversnelling in Blackwell die de geheugenbandbreedtevereisten vermindert terwijl de modelnauwkeurigheid behouden blijft.

Deze optimalisatie verlaagt de kosten per miljoen tokens en zorgt ervoor dat de bestaande infrastructuur een groter aantal verzoeken met een lagere latentie kan verwerken. Cloudproviders en ondernemingen kunnen hun AI-diensten upgraden zonder dat ze rechtstreeks hardware hoeven te upgraden.

Blackwell zag ook verbeterde trainingsprestaties

Blackwell wordt ook veel gebruikt als basishardwarecomponent voor het trainen van de grootste taalmodellen.

In dit geval rapporteert Nvidia ook aanzienlijke voordelen voor Blackwell bij gebruik voor AI-training.

Sinds de eerste lancering levert het GB200 NVL72-systeem tot 1,4x hogere trainingsprestaties op dezelfde hardware – een verbetering van 40% die in slechts vijf maanden wordt bereikt zonder enige hardware-upgrades.

De trainingsverbeteringen komen voort uit een reeks updates, waaronder:

  • Geoptimaliseerde trainingsrecepten. Nvidia-ingenieurs hebben geavanceerde trainingsrecepten ontwikkeld die effectief gebruik maken van de NVFP4-precisie. Blackwell’s eerste inzending maakte gebruik van FP8-precisie, maar de overgang naar een NVFP4-geoptimaliseerd recept haalt aanzienlijke extra prestaties uit het bestaande silicium.

  • Verbeteringen van algoritmen. Voortdurende verbeteringen van de softwarestack en algoritmische verfijningen zorgen ervoor dat het platform meer prestaties uit dezelfde hardware kan halen, wat aantoont dat er ook na de initiële implementatie sprake is van voortdurende innovatie.

Double Blackwell of wachten op Vera Rubin?

Salvator merkte op dat de high-end Blackwell Ultra een toonaangevend platform is dat speciaal is gebouwd om geavanceerde AI-modellen en -applicaties uit te voeren.

Hij voegde eraan toe dat het Nvidia Rubin-platform het marktleiderschap van het bedrijf zal uitbreiden en de volgende generatie MoE in staat zal stellen een nieuwe klasse applicaties te ondersteunen om AI-innovatie nog verder te brengen.

Salvator legde uit dat Vera Rubin is gebouwd om tegemoet te komen aan de toenemende computerbehoeften die worden veroorzaakt door de aanhoudende groei in modelomvang en tokenisatie van toonaangevende modellen zoals MoE.

“Blackwell en Rubin kunnen hetzelfde model bedienen, maar het verschil zit in de prestaties, efficiëntie en symbolische kosten”, zei hij.

Volgens de eerste testresultaten van Nvidia kan Rubin, vergeleken met Blackwell, grote MoE-modellen trainen op een kwart van het aantal GPU’s, het genereren van inferentietokens met 10x meer doorvoer per watt en inferentie tegen 1/10 van de kosten per token.

“Betere prestaties en efficiëntie van de tokendoorvoer betekenen dat nieuwe modellen kunnen worden gebouwd met betere redeneringsmogelijkheden en snellere agent-tot-agent-interacties, waardoor betere intelligentie tegen lagere kosten wordt gecreëerd”, aldus Salvator.

Wat dit allemaal betekent voor zakelijke AI-makers

Voor bedrijven die vandaag de dag AI-infrastructuur inzetten, blijven de huidige investeringen in Blackwell goed, ondanks de komst van Vera Rubin later dit jaar.

Organisaties die Blackwell al implementeren, kunnen onmiddellijk 2,8x inferentieverbeteringen en 1,4x trainingsverbeteringen zien door te upgraden naar de nieuwste versie van TensorRT-LLM – wat echte kostenbesparingen oplevert zonder kapitaaluitgaven. Voor degenen die nieuwe implementaties plannen in de eerste helft van 2026 is doorgaan met Blackwell zinvol. Zes maanden wachten betekent dat AI-initiatieven worden uitgesteld en mogelijk achterop raakt bij concurrenten die ze vandaag hebben geïmplementeerd.

Bedrijven die eind 2026 en daarna grootschalige infrastructuuruitbreidingen plannen, moeten Vera Rubin echter op hun routekaart opnemen. Een tienvoudige toename van de doorvoer per watt en een tiende van de kosten per token vertegenwoordigt een economische transformatie voor AI-operaties op schaal.

De slimme aanpak is een gefaseerde implementatie: gebruik Blackwell voor onmiddellijke behoeften en ontwerp tegelijkertijd een systeem waarin Vera Rubin kan worden geïntegreerd, indien beschikbaar. Het continue optimalisatiemodel van Nvidia betekent dat dit geen binaire keuze is; bedrijven kunnen de waarde van huidige toepassingen maximaliseren zonder dat dit ten koste gaat van het concurrentievermogen op de lange termijn.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in