Home Nieuws DeepSeek voorwaardelijk geheugen corrigeert een stille verspilling van LLM: GPU-cycli verloren als...

DeepSeek voorwaardelijk geheugen corrigeert een stille verspilling van LLM: GPU-cycli verloren als gevolg van statisch zoeken

17
0
DeepSeek voorwaardelijk geheugen corrigeert een stille verspilling van LLM: GPU-cycli verloren als gevolg van statisch zoeken

Wanneer de LLM van een bedrijf productnamen, technische specificaties of standaardcontractclausules overneemt, maakt het bedrijf gebruik van dure GPU-computing die om complexe redenen is ontworpen – alleen maar om toegang te krijgen tot statische informatie. Dit gebeurt miljoenen keren per dag. Elke zoektocht verspilt cycli en verhoogt de infrastructuurkosten.

met dank aan DeepSeek nieuw uitgebracht onderzoek naar “voorwaardelijk geheugen” deze architecturale beperkingen rechtstreeks aan te pakken. Dit werk introduceert Engram, een module die het ophalen van statische patronen loskoppelt van dynamisch redeneren. Dit levert resultaten op die aannames over de feitelijke functie van het geheugen in neurale netwerken in twijfel trekken. Dit artikel is mede geschreven door Diep zoeken oprichter Liang Wenfeng.

Door middel van systematische experimenten vindt DeepSeek een optimale balans tussen rekenkracht en geheugen, waarbij 75% van de schaarse modelcapaciteit wordt toegewezen aan dynamisch redeneren en 25% aan statisch zoeken. Dit geheugensysteem verbetert het redeneren dat verder gaat dan alleen het ophalen van kennis.

De nauwkeurigheid van de benchmark voor complex redeneren steeg van 70% naar 74%, terwijl de kennisgerichte test steeg van 57% naar 61%. Deze verbeteringen komen uit tests als Big-Bench Hard, ARC-Challenge en MMLU.

Het onderzoek komt omdat bedrijven steeds meer onder druk staan ​​om capabelere AI-systemen in te zetten en tegelijkertijd GPU-geheugenbeperkingen en infrastructuurkosten aan te pakken. De DeepSeek-aanpak biedt een mogelijke weg vooruit door fundamenteel te heroverwegen hoe modellen moeten worden gestructureerd.

De manier waarop voorwaardelijk geheugen een ander probleem oplost dan agentgeheugen en RAG

Agent-geheugensystemen, ook wel contextueel geheugen genoemd, zoals Terugkijkend, Memoof Memp – focus op episodisch geheugen. Ze slaan gegevens op van eerdere gesprekken, gebruikersvoorkeuren en interactiegeschiedenis. Dit systeem helpt agenten de context tijdens sessies te behouden en van ervaringen te leren. Maar dit valt buiten het doorsturen van modellen en optimaliseert niet de manier waarop het model statische taalpatronen intern verwerkt.

Voor Chris Latimer, oprichter en CEO van Vectorize, die Hindsight ontwikkelde, lost de voorwaardelijke geheugenbenadering die bij Engram wordt gebruikt een ander probleem op dan het geheugen van AI-agenten.

“Dit lost het probleem van het verbinden van agenten met extern geheugen, zoals gespreksgeschiedenis en kennisopslag, niet op”, vertelde Latimer aan VentureBeat. “Dit is meer gericht op het maximaliseren van de prestaties van kleinere modellen en het maximaliseren van het gebruik van schaarse GPU-bronnen.”

Voorwaardelijk geheugen pakt een fundamenteel probleem aan: Transformers beschikken niet over native kenniszoekprimitieven. Bij het verwerken van tekst moeten ze het ophalen van statische patronen simuleren via dure neurale berekeningen over meerdere lagen. Deze patronen omvatten benoemde entiteiten, technische terminologie en algemene zinsneden.

Het DeepSeek-artikel illustreert dit met een concreet voorbeeld. Het leren kennen van “Diana, Princess of Wales” vereist gelaagde aandacht en een feed-forward netwerk om geleidelijk functies op te bouwen. Dit model maakt in wezen gebruik van diepe en dynamische logische circuits om eenvoudige hashtabel-zoekopdrachten uit te voeren. Het is alsof u een rekenmachine gebruikt om uw telefoonnummer te onthouden, in plaats van het alleen maar op te zoeken.

“Het probleem is dat Transformer geen mogelijkheden heeft om ‘native kennis te zoeken’”, schreven de onderzoekers. “Veel taken die in O(1)-tijd moeten worden voltooid, zoals ophalen, moeten worden ‘gesimuleerd voor ophalen’ door middel van grote hoeveelheden berekeningen, wat zeer inefficiënt is.”

Hoe voorwaardelijk geheugen werkt

Engram introduceerde “voorwaardelijk geheugen” om naast MoE conditioneel computergebruik te werken.

Het mechanisme is heel eenvoudig. Deze module neemt een reeks van twee tot drie tokens en gebruikt een hash-functie om ernaar te zoeken in een enorme inbeddingstabel. Het ophalen vindt plaats in een constante tijd, ongeacht de tabelgrootte.

De genomen patronen moeten echter worden gefilterd. Een hash-zoekopdracht naar ‘Apple’ kan botsen met niet-gerelateerde inhoud, of het woord kan de vrucht betekenen, en niet het bedrijf. Engram lost dit probleem op met een poortmechanisme. Het huidige begrip van de context door het model (verzameld door eerdere aandachtslagen) fungeert als een filter. Als het opgehaalde geheugen conflicteert met de huidige context, zal de poort dit onderdrukken. Als het overeenkomt, laat de poort het passeren.

Deze module is niet in elke laag geïmplementeerd. Strategische plaatsing balanceert prestatieverbeteringen tegen systeemlatentie.

Dit dubbele systeemontwerp roept belangrijke vragen op: hoeveel capaciteit moet elk systeem hebben? De belangrijkste bevinding van DeepSeek: de optimale verdeling is 75-80% voor rekenkracht en 20-25% voor geheugen. Uit tests bleek dat pure MoE (100% berekening) niet optimaal was. Te veel rekenwerk verspilt de diepte van de reconstructie van statische patronen; te veel geheugen verliest het redeneervermogen.

Infrastructuurefficiëntie: GPU-geheugenbypass

Misschien wel de meest pragmatische bijdrage van Engram is het infrastructuurbewuste ontwerp. In tegenstelling tot de dynamische routing van MoE, die afhangt van de verborgen status tijdens de runtime, hangt de ophaalindex van Engram alleen af ​​van de volgorde van de invoertokens. Deze deterministische aard maakt een prefetch-and-overlap-strategie mogelijk.

“De uitdaging is dat het GPU-geheugen beperkt en duur is, dus het gebruik van grotere modellen zou duur en moeilijk te implementeren zijn”, aldus Latimer. “Het slimme idee achter Engram is om het hoofdmodel op de GPU te houden, maar de meeste opgeslagen modelinformatie naar een apart geheugen op regulier RAM te verplaatsen, dat just-in-time door het model kan worden gebruikt.”

Tijdens de inferentie kan het systeem via PCIe insluitingen asynchroon ophalen uit het CPU-geheugen van de host. Dit gebeurt wanneer de GPU het vorige transformatorblok berekent. Strategische laagplaatsing maakt gebruik van vroege laagberekening als buffer om de communicatielatentie te dekken.

De onderzoekers demonstreerden dit met een parameterinbeddingstabel van 100 miljard die volledig naar de DRAM-host werd overgebracht. Zij behaalden een doorvoerboete van minder dan 3%. Deze scheiding tussen opslag en computers lost een belangrijk obstakel op voor bedrijven, aangezien GPU-geheugen met hoge bandbreedte duur en schaars blijft.

Wat dit betekent voor de toepassing van AI in bedrijven

Voor bedrijven die AI-infrastructuurstrategieën evalueren, suggereren de bevindingen van DeepSeek verschillende bruikbare inzichten:

1. Hybride architectuur presteert beter dan pure benaderingen. De 75/25-allocatiewet geeft aan dat het optimale model een kleine hoeveelheid capaciteit moet verdelen tussen computergebruik en geheugen.

2. Infrastructuurkosten kunnen verschuiven van GPU naar geheugen. Als architectuur in Engram-stijl levensvatbaar blijkt te zijn in de productie, kunnen de investeringspatronen in de infrastructuur veranderen. De mogelijkheid om meer dan 100 miljard parameters in het CPU-geheugen op te slaan met minimale overhead suggereert dat gematigde, geheugenrijke computerconfiguraties betere prestaties per dollar kunnen bieden dan pure GPU-schaling.

3. Verbeterd redeneren gaat verder dan het verwerven van kennis. De verrassende bevinding dat redeneren nuttiger is dan het ophalen van kennis suggereert dat de waarde van geheugen verder gaat dan de voor de hand liggende gebruiksscenario’s.

Voor bedrijven die voorop lopen in de adoptie van AI, suggereert Engram dat de volgende uitdaging misschien niet alleen een groter model zal zijn. Het zijn slimmere architecturale keuzes die het fundamentele onderscheid tussen statische kennis en dynamisch redeneren respecteren. Uit onderzoek blijkt dat optimale AI-systemen steeds meer op hybride architecturen zullen gaan lijken.

Organisaties die wachten op de adoptie van AI in de volgende cyclus moeten in de gaten houden of grote modelaanbieders principes van voorwaardelijk geheugen in hun architectuur integreren. Als de 75/25-allocatiewet van toepassing is op alle schaalniveaus en domeinen, kunnen funderingsmodellen van de volgende generatie veel betere redeneerprestaties bieden tegen lagere infrastructuurkosten.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in