Home Nieuws Google betaalt geen Nvidia-belastingen. De nieuwe TPU legt uit waarom.

Google betaalt geen Nvidia-belastingen. De nieuwe TPU legt uit waarom.

2
0
Google betaalt geen Nvidia-belastingen. De nieuwe TPU legt uit waarom.

Elk toonaangevend AI-laboratorium rantsoeneert tegenwoordig twee dingen: elektriciteit en computers. De meesten van hen kopen computers voor modeltraining bij dezelfde leveranciers, wier hoge brutomarges Nvidia tot een van de meest waardevolle bedrijven ter wereld hebben gemaakt. Google niet.

Dinsdagavond gaf Google tijdens een besloten bijeenkomst op F1 Plaza in Las Vegas een voorproefje van zijn Tensor Processing Unit van de achtste generatie. Kortom: twee op maat gemaakte siliciumontwerpen die later dit jaar op de markt komen, elk speciaal gebouwd voor de helft van de moderne AI-workloads. De TPU 8t richt zich op training voor frontier-modellen, en de TPU 8i richt zich op de lage latentie, geheugenvretende wereld van agent-inferentie en real-time sampling.

Amin Vahdat, Google’s SVP en hoofdtechnoloog voor AI en infrastructuur (foto linksboven), gebruikte zijn tijd op het podium om een ​​punt naar voren te brengen dat belangrijker is voor zakelijke kopers dan welke individuele specificatie dan ook: Google ontwerpt elke laag van zijn AI-stack end-to-end, en verticale integratie begint zichtbaar te worden in de kosten-per-token-economie die Google zegt dat zijn concurrenten niet kunnen evenaren.

“Eén chip per jaar is niet genoeg”: Inside Google’s weddenschap voor 2024 op een routekaart met twee chips

Het interessantere verhaal achter v8t en v8i is het moment waarop de beslissing werd genomen om de roadmap te splitsen. Volgens Vahdat komt de oproep in 2024 – een jaar voordat de industrie op grote schaal verschuift naar redeneer-, agenten- en versterkende leermodellen als de dominante front-end-workloads.

Destijds was het een tegenstrijdige lezing. “Twee jaar geleden beseften we dat één chip per jaar niet genoeg zou zijn”, zei Vahdat ten tijde van de brand. “Dit is onze eerste kans om twee superkrachtige, op maat gemaakte chips echt te gebruiken.”

Voor zakelijke kopers is de impact reëel. Klanten die finetuning of grootschalige training geven op Google Cloud en klanten die productiebureaus bedienen Hoekpunt AI hebben dezelfde versnellers ingehuurd en zich gevoed met inefficiënties. De V8 is de eerste generatie waarbij het silicium zelf als een aparte zaak wordt behandeld met twee chipsets.

TPU 8t: trainingsmateriaal dat kan worden opgeschaald naar een miljoen chips

Op papier is de 8t TPU een agressieve generatiebeweging. Volgens Google levert de 8t 2,8x FP4 EFlops per pod (121 versus 42,5) vergeleken met Ironwood, een TPU van de zevende generatie die in 2025 op de markt komt, waardoor de bidirectionele upgradebandbreedte wordt verdubbeld tot 19,2 Tb/s per chip en de netwerkmogelijkheden worden verviervoudigd tot 400 Gb/s per chip. De grootte van de pod neemt licht toe van 9.216 naar 9.600 chips, bij elkaar gehouden door de 3D Torus-topologie van Google.

De cijfers die het belangrijkst zijn voor IT-leiders die evalueren waar ze toonaangevende schaaltraining moeten geven: 8t-clusters (Superpods) kunnen meer dan 1 miljoen TPU-chips bevatten in één enkele trainingstaak via een nieuwe interconnect die Google het Virgo-netwerk noemt.

De 8t introduceert ook TPU Direct Storage, die gegevens van de door Google beheerde opslaglaag rechtstreeks naar HBM verplaatst, zonder de gebruikelijke CPU-gemedieerde hop. Voor langlopende trainingssessies waarbij de wandkloktijd de kostendrijver is, zal het instorten van die datapijplijn het aantal pod-uren verminderen dat nodig is om elk tijdperk te voltooien.

TPU 8i en Boardfly: netwerken voor agenten opnieuw ontwerpen

Als de 8t een evolutionaire stap was, is de 8i TPU een architectonisch interessantere chip. Dit is waar het verhaal van de IT-koper het meest interessant wordt.

De sprong in de specificaties van jaar tot jaar is, zoals Vahdat zegt, ‘verbazingwekkend’. Volgens Google levert de 8i 9,8x FP8 EFlops per pod (11,6 versus 1,2), 6,8x HBM-capaciteit per pod (331,8 TB versus 49,2) en een 4,5x grotere podgrootte van 256 naar 1.152 chips.

Wat de cijfers drijft, is een heroverweging van het netwerk zelf. Vahdat legt dit inzicht direct uit: Google’s standaardmanier om chips met elkaar te verbinden geeft de voorkeur aan bandbreedte boven latentie – prima voor het verplaatsen van grote hoeveelheden gegevens, het is niet gebouwd voor de minimale tijd die nodig is om een ​​reactie terug te krijgen. Het profiel is bedoeld voor trainingsdoeleinden. Voor agenten: nee. In samenwerking met Google DeepMind bouwde het TPU-team wat Google een Boardfly-topologie noemt, specifiek om de netwerkdiameter te verkleinen – waardoor het aantal hops tussen twee chips in een pod wordt geminimaliseerd. In combinatie met de Collective Acceleration Engine en wat Google beschrijft als enorme SRAM op de chip, zou de 8i een latentieverbetering van 5x opleveren voor real-time LLM-sampling en versterkingsleren.

Verticale integratiegrachten: waarom Google de “Nvidia-belasting” niet betaalt

De subtekst van Vahdats presentatie was een diagram met zes lagen van wat Google de AI-stack noemt: energie aan de basis, vervolgens het land en de dekking van het datacenter, AI-infrastructuurhardware, AI-infrastructuursoftware, modellen (Gemini 3) en services daarbovenop. Vahdat merkt op dat het afzonderlijk ontwerpen van elke laag je dwingt om voor elke laag de kleinste gemene deler te gebruiken. Google heeft het samen ontworpen.

Dit is waar het concurrentieverhaal voor IT-kopers en -analisten werkelijkheid wordt. OpenAI, Anthropic, xAI en Meta zijn allemaal sterk afhankelijk van Nvidia-silicium om hun toonaangevende modellen te trainen. Elke H200 en Blackwell GPU die ze kopen, wordt geleverd met de brutomarge van Nvidia’s datacenters – een informele ‘Nvidia-belasting’ die sectoranalisten twee jaar op rij hebben gekarakteriseerd als een structureel kostennadeel voor iedereen die huurt in plaats van ontwerpt. Google betaalt buitengewone kosten, verpakking en engineering voor zijn TPU. Het betaalt die marge niet.

De nieuwe chip van Google

Wat v8 betekent voor de computerrace: een nieuwe evaluatiechecklist voor IT-leiders

Voor inkoop- en infrastructuurteams herformuleert TPUv8 de cloudevaluatie voor 2026-2027 op een concrete manier.

Teams die grote bedrijfseigen modellen trainen, moeten aandacht besteden aan 8t-beschikbaarheidsvensters, Virgo-netwerktoegang en goede SLA’s – niet alleen aan primaire EFlops. Teams die agenten bedienen of werklasten overwegen, moeten de beschikbaarheid van 8i op Vertex AI, opkomende onafhankelijke latentiebenchmarks, en of de HBM-grootte per pod in hun contextvenster past, evalueren. Teams die Gemini via Gemini Enterprise gebruiken, zouden de verbeteringen van 8i moeten erven en verwachten dat het plafond van wat ze in de productie kunnen inzetten aanzienlijk zal stijgen tot 2026.

De waarschuwing is reëel. Algemene beschikbaarheid is nog steeds “later in 2026”. V8 is een routekaartsignaal, geen huidige aanbestedingsbeslissing. Google-benchmarks zijn zelfgerapporteerd; Er bestaat geen twijfel over dat er de komende twee kwartalen onafhankelijke cijfers zullen komen van vroege cloudklanten en externe beoordelaars. En portabiliteit tussen JAX/XLA en het CUDA/PyTorch-ecosysteem blijft een frictiekostenpost om over na te denken bij het onderhandelen over meerjarige verplichtingen.

Als we verder kijken, doet Vahdat twee opmerkelijke voorspellingen. Ten eerste zullen CPU’s voor algemene doeleinden een opleving in AI-systemen ervaren – niet als versnellers, maar als orkestratiecomputing voor agent-sandboxes, virtuele machines en het uitvoeren van tools. Ten tweede blijft specialisatie ook snel groeien, omdat het expliciet wordt geformuleerd als een voorspelling voor de sector en niet als een voorproefje van de routekaart van Google. Omdat CPU’s voor algemene doeleinden met een paar procent per jaar stagneren, zullen bedrijfskritische workloads speciaal gebouwd silicium vereisen. “Twee chips kunnen er meer worden”, zei Vahdat – zonder te specificeren of “meer” toekomstige TPU-varianten of andere gespecialiseerde klassen van versnellers betekent.

Vroeger ging het bij de race naar de voorhoede van de computer om de vraag wie de meeste H100’s kon kopen. De vraag is nu wie de stapel beheert. De lijst met bedrijven die dit momenteel daadwerkelijk doen, is twee: Google en Nvidia.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in