Home Nieuws Het nieuwe Infra AI-product van ScaleOps verlaagt de GPU-kosten voor zelfgehoste ondernemings-LLM’s...

Het nieuwe Infra AI-product van ScaleOps verlaagt de GPU-kosten voor zelfgehoste ondernemings-LLM’s met 50% voor early adopters

10
0
Het nieuwe Infra AI-product van ScaleOps verlaagt de GPU-kosten voor zelfgehoste ondernemings-LLM’s met 50% voor early adopters

Schaaloperaties heeft zijn cloud resource management-platform uitgebreid met nieuwe producten gericht op bedrijven die zelfgehoste grote taalmodellen (LLM) en GPU-gebaseerde AI-applicaties gebruiken.

Dat Vandaag zijn AI Infra-producten aangekondigdbreidt bestaande bedrijfsautomatiseringsmogelijkheden uit om te voldoen aan de toenemende behoefte aan efficiënt GPU-gebruik, voorspelbare prestaties en verminderde operationele lasten bij grootschalige AI-implementaties.

Het bedrijf zegt dat het systeem al in bedrijfsproductieomgevingen draait en grote efficiëntiewinsten oplevert voor early adopters, waardoor de GPU-kosten met tussen de 50% en 70% worden verlaagd, aldus het bedrijf. Het bedrijf maakt de bedrijfsprijzen voor deze oplossing niet publiekelijk bekend en nodigt in plaats daarvan geïnteresseerde klanten uit om een ​​offerte op maat te ontvangen op basis van de omvang van hun activiteiten en behoeften. Hier.

In zijn uitleg over hoe het systeem zich onder zware belasting gedraagt, zei Yodar Shafrir, CEO en medeoprichter van ScaleOps, in een e-mail aan VentureBeat dat het platform “proactieve en reactieve mechanismen gebruikt om plotselinge pieken op te vangen zonder de prestaties te beïnvloeden”, en merkte hij op dat het beleid voor aanpassing van de werklast “automatisch de capaciteit beheert om bronnen beschikbaar te houden.”

Hij voegde eraan toe dat het minimaliseren van GPU-vertragingen bij koude start een prioriteit is, waarbij hij benadrukte dat het systeem “onmiddellijke reactie garandeert wanneer het verkeer piekt”, vooral voor AI-workloads waarbij de laadtijden van modellen enorm zijn.

Uitbreiding van resourceautomatisering naar AI-infrastructuur

Bedrijven die zelfgehoste AI-modellen inzetten, worden geconfronteerd met prestatievariaties, lange laadtijden en aanhoudend ondergebruik van GPU-bronnen. ScaleOps positioneert zijn nieuwe AI Infra-product als een direct antwoord op dit probleem.

Het platform wijst GPU-bronnen in realtime toe en schaalt het en past zich aan de veranderende verkeersbehoefte aan zonder dat er wijzigingen nodig zijn in de bestaande modelimplementatiepijplijnen of applicatiecode.

Volgens ScaleOps beheert het systeem productieomgevingen voor organisaties als Wiz, DocuSign, Rubrik, Coupa, Alkami, Vantor, Grubhub, Island, Chewy en verschillende Fortune 500-bedrijven.

AI Infra-producten introduceren op werklast gebaseerd schalingsbeleid dat de capaciteit proactief en reactief aanpast om de prestaties tijdens pieken in de vraag op peil te houden. Het bedrijf stelt dat dit beleid de vertragingen bij een koude start vermindert die gepaard gaan met het laden van grote AI-modellen, waardoor de responsiviteit wordt verbeterd wanneer het verkeer toeneemt.

Technische integratie en platformcompatibiliteit

Dit product is ontworpen om compatibel te zijn met algemene bedrijfsinfrastructuurpatronen. Het werkt in Kubernetes-distributies, grote cloudplatforms, on-premises datacenters en air-gapped-omgevingen. ScaleOps benadrukt dat de implementatie geen codewijzigingen, herschrijvingen van de infrastructuur of aanpassingen aan bestaande manifesten vereist.

Shafrir zei dat het platform “naadloos kan worden geïntegreerd in bestaande modelimplementatiepijplijnen zonder dat er code- of infrastructuurwijzigingen nodig zijn”, en hij voegde eraan toe dat teams onmiddellijk kunnen beginnen met optimaliseren met bestaande GitOps-, CI/CD-, monitoring- en implementatietools.

Shafrir besprak ook hoe automatisering samenwerkt met bestaande systemen. Hij zei dat het platform werkt zonder de workflows te verstoren of conflicten te creëren met aangepaste plannings- of schaallogica. Hij legt uit dat het systeem “de manifest- of implementatielogica niet verandert” en in plaats daarvan gebruikmaakt van aangepaste planners, autoscalers en beleid door realtime operationele context op te nemen, terwijl de bestaande configuratiebeperkingen worden gerespecteerd.

Prestaties, zichtbaarheid en gebruikerscontrole

Het platform biedt volledig inzicht in GPU-gebruik, modelgedrag, prestatiestatistieken en schaalbeslissingen op meerdere niveaus, waaronder pods, workloads, knooppunten en clusters. Hoewel het systeem standaardbeleid voor het schalen van werklasten toepast, merkt ScaleOps op dat het technische team de mogelijkheid behoudt om dit beleid indien nodig aan te passen.

In de praktijk streven bedrijven ernaar de handmatige aanpassingen die DevOps- en AIOps-teams doorgaans maken om de AI-workloads te beheren, te verminderen of te elimineren. Het is de bedoeling dat de installatie minimale inspanning vergt, door ScaleOps beschreven als een proces van twee minuten met behulp van een enkele roervlag, waarna optimalisaties via een enkele actie kunnen worden ingeschakeld.

Kostenbesparingen en bedrijfscasestudies

ScaleOps meldt dat de eerste implementaties van AI Infra-producten GPU-kostenbesparingen van 50-70% hebben opgeleverd in klantomgevingen. Het bedrijf noemde twee voorbeelden:

  • Een groot creatief softwarebedrijf dat duizenden GPU’s exploiteerde, had een gemiddeld gebruik van 20% voordat het ScaleOps adopteerde. Dit product verhoogt het gebruik, consolideert onderbenutte capaciteit en maakt het mogelijk GPU-nodes te verkleinen. Deze wijziging vermindert de totale GPU-uitgaven met meer dan de helft. Het bedrijf rapporteerde ook een vermindering van 35% in de latentie voor belangrijke werklasten.

  • Een wereldwijd gamingbedrijf gebruikt dit platform om dynamische LLM-workloads op honderden GPU’s te optimaliseren. Volgens ScaleOps verhoogt dit product het gebruik zeven keer, terwijl de prestaties op serviceniveau behouden blijven. Alleen al door deze werklast verwachtte de klant een jaarlijkse besparing van $1,4 miljoen.

ScaleOps stelt dat de verwachte GPU-besparingen doorgaans groter zijn dan de kosten van de implementatie en exploitatie van het platform, en dat klanten met beperkte infrastructuurbudgetten een snel rendement op hun investering hebben gemeld.

Sectorcontext en bedrijfsperspectief

De snelle acceptatie van zelf-gehoste AI-modellen heeft voor nieuwe operationele uitdagingen voor bedrijven gezorgd, met name op het gebied van GPU-efficiëntie en de complexiteit van het beheer van grootschalige werklasten. Shafrir beschrijft het bredere landschap als “cloud-native AI-infrastructuur die zijn breekpunt bereikt.”

“Cloud-native architectuur ontgrendelt grote flexibiliteit en controle, maar introduceert ook nieuwe niveaus van complexiteit”, zei hij in de aankondiging. “Het op grote schaal beheren van GPU-bronnen is nu chaotisch: verspilling, prestatieproblemen en torenhoge kosten zijn nu gemeengoed. Het ScaleOps-platform is gebouwd om dit aan te pakken. Het biedt een complete oplossing voor het beheren en optimaliseren van GPU-bronnen in cloud-native omgevingen, waardoor bedrijven LLM- en AI-applicaties efficiënt en kosteneffectief kunnen uitvoeren en tegelijkertijd de prestaties kunnen verbeteren.”

Shafrir voegde eraan toe dat het product een reeks cloudresourcebeheerfuncties samenbrengt die nodig zijn om diverse workloads op schaal te beheren. Het bedrijf positioneert dit platform als een holistisch systeem voor automatische en continue optimalisatie.

Een geïntegreerde aanpak voor de toekomst

Met de toevoeging van AI Infra Products wil ScaleOps een uniforme aanpak bouwen voor GPU- en AI-workloadbeheer die kan worden geïntegreerd met de bestaande bedrijfsinfrastructuur.

De initiële prestatiestatistieken en gerapporteerde kostenbesparingen van het platform duiden op een focus op meetbare efficiëntieverbeteringen in het zich uitbreidende, zelf-gehoste ecosysteem voor AI-implementatie.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in