Home Nieuws Het team achter continue clustering zegt dat uw inactieve GPU inferentie moet...

Het team achter continue clustering zegt dat uw inactieve GPU inferentie moet uitvoeren en niet inactief moet zijn

2
0
Het team achter continue clustering zegt dat uw inactieve GPU inferentie moet uitvoeren en niet inactief moet zijn

Elk GPU-cluster heeft een dode tijd. Trainingstaken zijn voltooid, de werkdruk verandert en de hardware staat stil terwijl de stroom- en koelingskosten voortduren. Voor neocloud-operators vertegenwoordigen deze lege cycli verloren marges.

De voor de hand liggende oplossing is een GPU-marktplaats: het verhuren van reservecapaciteit aan iedereen die het nodig heeft. Maar gebeurtenissen in de echte wereld betekenen dat de cloudleverancier nog steeds degene is die de leasing uitvoert, en dat de ingenieurs die de capaciteit kopen nog steeds betalen voor onbewerkte rekenkracht zonder dat er een gevolgtrekking aan is gekoppeld.

Het antwoord van FriendliAI is anders: voer gevolgtrekkingen rechtstreeks uit op inactieve hardware, optimaliseer de tokendoorvoer en deel de inkomsten met operators. FriendliAI is opgericht door Byung-Gon Chun, een onderzoeker wiens artikel over continu batchen de basis werd van vLLM, de open source inferentie-engine die tegenwoordig in de meeste productie-implementaties wordt gebruikt.

Chun heeft ruim tien jaar als hoogleraar aan de Seoul National University onderzoek gedaan naar de efficiënte uitvoering van machine learning-modellen op grote schaal. Het onderzoek resulteerde in een paper met de titel Orka’sdie continue groepering introduceert. Deze techniek verwerkt deductieverzoeken dynamisch in plaats van te wachten tot een vaste pool is gevuld voordat deze wordt uitgevoerd. Het is nu een industriestandaard en een kernmechanisme binnen vLLM.

Deze week lanceerde FriendliAI een nieuw platform genaamd InferenceSense. Net zoals uitgevers Google AdSense gebruiken om geld te verdienen met onverkochte advertentievoorraad, kunnen neocloud-operators InferenceSense gebruiken om ongebruikte GPU-cycli te vullen met betaalde AI-inferentieworkloads en wat token-inkomsten te verzamelen. Het eigen werk van de operator heeft altijd voorrang: wanneer de planner de GPU terugwint, geeft InferenceSense het op.

“Wat wij bieden is dat in plaats van dat GPU’s inactief zijn, ze door gevolgtrekkingen geld kunnen verdienen met die inactieve GPU’s”, vertelde Chun aan VentureBeat.

Hoe het laboratorium van de Seoul National University de machine in vLLM bouwde

Chun richtte FriendliAI op in 2021, voordat een groot deel van de industrie de aandacht verlegde van training naar gevolgtrekking. Het belangrijkste product van het bedrijf is een op maat gemaakte inferentie-eindpuntservice voor AI-startups en bedrijven die open-weight-modellen gebruiken. FriendliAI verschijnt ook als implementatieoptie op Hugging Face naast Azure, AWS en GCP, en ondersteunt momenteel meer dan 500.000 open-weight-modellen van die platforms.

InferenceSense breidt die inferentie-engine nu uit naar de capaciteitsproblemen waarmee GPU-operators tussen werklasten mee te maken krijgen.

Hoe werkt het

InferenceSense draait bovenop Kubernetes, dat de meeste neocloud-operators al gebruiken voor resource-orkestratie. Operators wijzen GPU-pools toe aan Kubernetes-clusters die worden beheerd door FriendliAI, waarbij wordt aangegeven welke knooppunten beschikbaar zijn en onder welke voorwaarden ze kunnen worden teruggevorderd. Inactieve detectie wordt uitgevoerd via Kubernetes zelf.

“We hebben onze eigen orkestrator die draait op GPU’s van neocloud- of gewoon cloud-leveranciers,” zei Chun. “We maken uiteraard gebruik van Kubernetes, maar de software die erbovenop draait is een sterk geoptimaliseerde inferentiestapel.”

Wanneer de GPU niet in gebruik is, voert InferenceSense geïsoleerde containers uit die betaalde inferentie-workloads leveren op open-weight-modellen, waaronder DeepSeek, Qwen, Kimi, GLM en MiniMax. Wanneer de operatorplanner de hardware terug nodig heeft, wordt de gevolgtrekkingswerklast ondervangen en wordt de GPU hersteld. FriendliAI zegt dat de overdracht binnen enkele seconden plaatsvindt.

Verzoeken worden verzameld via de FriendliAI live-client en via gevolgtrekkingsaggregators zoals OpenRouter. Operators leveren capaciteit; FriendliAI verzorgt het zoekpad, de modeloptimalisatie en de serveerstapel. Er zijn geen kosten vooraf en geen minimale inzet. Realtime dashboards laten operators zien welke modellen actief zijn, tokens worden verwerkt en verdiende inkomsten.

Waarom de tokendoorvoer de verhuur van onbewerkte capaciteit overtreft

Op de spot-GPU-markt van providers als CoreWeave, Lambda Labs en RunPod verhuren cloudleveranciers hun eigen hardware aan derden. InferenceSense draait op hardware die de neocloud-operator al bezit, waarbij de operator bepaalt welke knooppunten deelnemen en vooraf een planningsovereenkomst met FriendliAI opstelt. Het verschil is belangrijk: spotmarkten genereren inkomsten uit capaciteit, InferenceSense genereert inkomsten uit tokens.

Tokendoorvoer per GPU-klok bepaalt hoeveel InferenceSense daadwerkelijk kan worden verdiend tijdens een inactieve periode. FriendliAI beweert dat zijn engine twee tot drie keer de doorvoer levert van standaard vLLM-implementaties, hoewel Chun opmerkt dat deze cijfers variëren afhankelijk van het type werklast. De meeste concurrerende inferentiestapels zijn gebouwd op op Python gebaseerde open source-frameworks. De FriendliAI-engine is geschreven in C++ en gebruikt een aangepaste GPU-kernel in plaats van Nvidia’s cuDNN-bibliotheek. Het bedrijf heeft zijn eigen modelrepresentatielaag gebouwd om modellen over hardware te verdelen en uit te voeren, met zijn eigen implementatie van speculatieve decodering, kwantisering en KV-cachebeheer.

Omdat de FriendliAI-engine meer tokens per GPU-uur verwerkt dan een standaard vLLM-stack, zouden operators meer inkomsten per inactieve cyclus moeten genereren in vergelijking met het uitvoeren van hun eigen inferentiediensten.

Waar AI-ingenieurs die de kosten van inferentie evalueren, op moeten letten

Voor AI-ingenieurs die evalueren waar deductiewerklasten moeten worden uitgevoerd, komt de beslissing tussen neocloud en hyperscaler meestal neer op prijs en beschikbaarheid.

InferenceSense voegt een nieuwe overweging toe: als neoclouds door inferentie geld kunnen verdienen met niet-gebruikte capaciteit, hebben ze meer economische prikkels om tokenprijzen concurrerend te houden.

Dit is geen reden om beslissingen over de huidige infrastructuur te wijzigen – het is nog te vroeg. Maar ingenieurs die de totale kosten van inferentie in kaart brengen, moeten letten op de vraag of de adoptie van neocloud-platforms zoals InferenceSense de komende twaalf maanden druk uitoefent op de API-prijzen voor modellen als DeepSeek en Qwen. “Als we efficiëntere leveranciers hebben, zullen de totale kosten dalen”, aldus Chun. “Met InferenceSense kunnen we bijdragen aan het goedkoper maken van die modellen.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in