Van kilometers ver door de woestijn ziet de Grote Piramide eruit als een perfecte, vloeiende geometrie: een slanke driehoek die naar de sterren wijst. Als je echter onderaan staat, gaat de illusie van gladheid verloren. Je ziet grote, grillige brokken kalksteen. Dit is geen helling; het is een ladder.
Houd dit in gedachten de volgende keer dat je futuristen hoort praten over exponentiële groei.
Mede-oprichter van Intel, Gordon Moore (de wet van Moore) zei in 1965 dat het aantal transistors op microchips elk jaar zou verdubbelen. Een andere directeur van Intel, David House, herzag deze verklaring later om “elke 18 maanden een verdubbeling van de macht te berekenen.” Een tijdlang waren Intel CPU’s een goed voorbeeld van deze wet. Dat wil zeggen, totdat de groei van de CPU-prestaties zo vlak wordt als een blok kalksteen.
Als je echter uitzoomt, is de volgende uitdaging al aanwezig: de groei van de computer verschuift eenvoudigweg van de CPU- naar de GPU-wereld. Jensen Huang, CEO van Nvidia, speelde het lange spel en kwam naar voren als een sterke winnaar. Aanvankelijk bouwde hij zijn springplank met gaming, daarna met computervisie en meer recentelijk met generatieve AI.
De illusie van soepele groei
Technologische groei is vol versnelling en stagnatie, en AI-genen zijn hier ook niet immuun voor. De stroomgolf wordt aangedreven door de transformatorarchitectuur. Om Anthropic President en mede-oprichter Dario Amodei te citeren: “Het exponentiële gaat door totdat het niet meer gebeurt. En elk jaar denken we: ‘Nou, het is onmogelijk dat deze dingen exponentieel blijven doorgaan’ – en elk jaar blijft het gebeuren.”
Maar nu CPU’s zich stabiliseren en GPU’s het voortouw nemen, zien we tekenen dat de LLM-groei het paradigma opnieuw verschuift. Eind 2024 verraste DeepSeek bijvoorbeeld de wereld door met een zeer klein budget een model van wereldklasse te trainen, deels met behulp van MoE-technieken.
Weet je nog waar je deze techniek onlangs hebt genoemd? Persbericht van Nvidia Rubin: Deze technologie omvat “…nvidia NVLink-interconnecttechnologie van de volgende generatie… om agent-AI, geavanceerd redeneren en grootschalige MoE-modelinferentie te versnellen tegen tot 10x lagere kosten per token.”
Jensen weet dat het bereiken van exponentiële groei in de computerwereld niet langer alleen met brute kracht mogelijk is. Soms moet je de architectuur compleet veranderen om de volgende stapsteen te kunnen plaatsen.
Latentiecrisis: waar Groq in past
Deze lange introductie brengt ons bij Groq.
De grootste verbeteringen in het redeneervermogen van AI tegen 2025 zullen voortkomen uit ‘inference time computing’ – of, in termen van de leek, ‘modellen langer laten nadenken’. Maar tijd is geld. Consumenten en bedrijven houden niet van wachten.
Groq komt hier in het spel met bliksemsnelle gevolgtrekking. Wanneer u de efficiëntie van een modelarchitectuur als DeepSeek en de doorvoer van Groq combineert, krijgt u toonaangevende intelligentie binnen handbereik. Door sneller gevolgtrekkingen uit te voeren, kunt u concurrerende modellen ‘verslaan’ en klanten een ‘slimmer’ systeem bieden zonder vertragingsboetes.
Van universele chips tot inferentie-optimalisatie
De afgelopen tien jaar zijn GPU’s de universele hamer voor elke AI-spijker geworden. Je gebruikt H100 om het model te trainen; Je gebruikt de H100 (of een getrimde versie) om het model te laten draaien. Maar naarmate modellen verschuiven naar het “Systeem 2”-denken – waarbij AI redeneert, zichzelf corrigeert en itereert voordat ze antwoord geeft – verandert de werklast van computers.
Training vereist een grote parallelle brute kracht. Inferentie, vooral voor redeneermodellen, vereist een snellere sequentiële verwerking. Het zou onmiddellijk tokens moeten genereren om complexe gedachteketens mogelijk te maken zonder dat gebruikers minuten op een antwoord moeten wachten. De LPU-architectuur (Language Processing Unit) van Groq elimineert de knelpunten in de geheugenbandbreedte waar GPU’s last van hebben tijdens kleine batch-inferentie, wat resulteert in bliksemsnelle inferentie.
De motor voor de volgende groeigolf
Voor de C-Suite lost het potentieel van deze convergentie de latentiecrisis van de ‘denktijd’ op. Denk eens aan de verwachtingen van AI-agenten: we willen dat ze autonoom vluchten boeken, hele applicaties coderen en juridische precedenten onderzoeken. Om dit betrouwbaar te kunnen doen, moet een model mogelijk 10.000 interne ‘gedachtetokens’ genereren om zijn eigen werk te verifiëren voordat het ook maar één woord naar de gebruiker uitspuugt.
-
Op een standaard GPU: 10.000 gedachtefiches kunnen 20 tot 40 seconden duren. Gebruikers vervelen zich en vertrekken.
-
In Groq: Dezelfde gedachtenreeks vond plaats in minder dan 2 seconden.
Als Nvidia Groq-technologie integreert, lossen ze het probleem van ‘wachten tot robots denken’ op. Ze behouden de magie van AI. Net zoals ze van pixelweergave (games) naar intelligentieweergave (AI-gen) zijn overgegaan, gaan ze nu ook over op weergave denken in realtime.
Bovendien creëert dit een robuuste softwaregracht. Groq’s grootste hindernis is de softwarestack; Nvidia’s grootste troef is CUDA. Als Nvidia zijn ecosysteem rond Groq-hardware wikkelt, graven ze feitelijk een gracht die zo breed is dat concurrenten er niet doorheen kunnen komen. Ze zullen een universeel platform bieden: de beste omgeving om te oefenen en de meest efficiënte omgeving om te draaien (Groq/LPU).
Bedenk eens wat er gebeurt als je die pure inferentiekracht combineert met een open source-model van de volgende generatie (zoals de geruchten over DeepSeek 4): je krijgt een aanbod dat qua kosten, prestaties en snelheid kan wedijveren met de toonaangevende modellen van vandaag. Dit opent mogelijkheden voor Nvidia, van halsoverkop in de inferentie-business duiken met zijn eigen cloudaanbod, tot het blijven ondersteunen van zijn exponentieel groeiende aantal klanten.
Volgende stap op de piramide
Terug naar onze openingsmetafoor: ‘exponentiële’ AI-groei is geen vloeiende lijn van ruwe FLOP’s; het is een ladder van opgeloste knelpunten.
-
Blok 1: Wij kunnen niet snel genoeg tellen. Oplossing: De GPU.
-
Blok 2: We konden niet diep genoeg trainen. Oplossing: Transformator-architectuur.
-
Blok 3: We kunnen niet snel genoeg ‘denken’. Oplossing: LPU Groq.
Jensen Huang is nooit bang geweest om zijn eigen productlijnen voor de toekomst te kannibaliseren. Door Groq te valideren koopt Nvidia niet alleen een snellere chip; zij zullen de volgende generatie intelligentie naar de massa brengen.
Andrew Filev, oprichter en CEO van Zencoder
Welkom bij de VentureBeat-community!
In ons gastenprogramma delen technische experts inzichten en geven ze onpartijdige, diepgaande uitleg over AI, data-infrastructuur, cyberbeveiliging en andere geavanceerde technologieën die de toekomst van ondernemingen vormgeven.
Lees meer uit ons gastenpostprogramma — en bekijk het eens richtlijnen als u geïnteresseerd bent om uw eigen artikel bij te dragen!



