Home Nieuws De onderzoekers verwerkten een drievoudige versnelling van de gevolgtrekking rechtstreeks in de...

De onderzoekers verwerkten een drievoudige versnelling van de gevolgtrekking rechtstreeks in de LLM-gewichten – zonder speculatieve decodering

1
0
De onderzoekers verwerkten een drievoudige versnelling van de gevolgtrekking rechtstreeks in de LLM-gewichten – zonder speculatieve decodering

Terwijl agent-AI-workflows de kosten en latentie van lange gedachteketens vermenigvuldigen, heeft een team van de Universiteit van Maryland, Lawrence Livermore National Labs, Columbia University en TogetherAI een manier gevonden om de doorvoer drie keer zo hoog te maken rechtstreeks naar het modelgewicht.

In tegenstelling tot speculatieve decodering, waarvoor een afzonderlijk tekenmodel vereist is, vereist deze aanpak geen extra infrastructuur; er wordt slechts één aangepast token toegevoegd aan de bestaande modelarchitectuur.

De volgende beperking van tokenvoorspelling

De volgende tokenvoorspelling – het genereren van één token per voorwaartse doorgang – creëert een doorvoerlimiet die erg duur wordt wanneer het model duizenden tokens moet produceren. Dit knelpunt is vooral problematisch bij redeneermodellen, die vaak duizenden ‘reeks gedachten”-token voordat het definitieve antwoord wordt gegenereerd, wat resulteert in een trage en dure gebruikerservaring.

Multi-token voorspelling (MTP) biedt een alternatief trainingsparadigma waarmee taalmodellen meerdere tokens tegelijk kunnen genereren in één enkele voorwaartse doorgang. Het model kan bijvoorbeeld worden getraind om één blok tokens tegelijk te voorspellen, en niet alleen het volgende token.

John Kirchenbauer, een promovendus in computerwetenschappen aan de Universiteit van Maryland en een van de auteurs van het artikel, vertelde VentureBeat dat naarmate we overstappen op agent-workflows, de focus verschuift van de algehele doorvoer naar de snelheid van een enkele gebruiker. “Nu ultralange denksporen de norm worden en de buitenste lussen van agenten deze kosten nog verder vermenigvuldigen, wordt latentie een even belangrijke dimensie van de algehele service-efficiëntie als bruto tokens per seconde per hardware-eenheid (tps/GPU)”, aldus Kirchenbauer. Hij zei dat hoewel de voorspelling van het volgende token in een standaardbatch optimaal is voor de algehele doorvoer, de nieuwe aanpak “ernaar streeft de GPU te verzadigen met de zoekopdracht van slechts één gebruiker om de latentie voor die ene gebruiker te verminderen.”

Er zijn andere methoden, maar deze hebben hun nadelen. “Het is vermeldenswaard dat speculatieve decodering en diffusie-LLM als een op efficiëntie gericht alternatief voor next token forecast (NTP) beide op latentie gerichte versnellingstechnieken zijn”, aldus Kirchenbauer. Maar speculatieve decodering vereist het implementeren en beheren van aanvullende ‘compilatie’-modellen, die meer absolute berekeningen vergen om te compileren en te verifiëren. MTP daarentegen “maakt gebruik van soortgelijke afwegingen, alleen gemakkelijker gepresenteerd en wetenschappelijk interessant.”

Het huidige MTP-paradigma kent echter beperkingen. Een standaarddoel voor het trainen van een taalmodel voor MTP is het vergelijken van de voorspellingen met grondwaarheidstekst uit een dataset. Het probleem is dat deze standaardtraining het model leert om de waarschijnlijkheid van een token op een bepaalde positie onafhankelijk te voorspellen, in plaats van zich druk te maken over de gezamenlijke relatie tussen sets tokens.

Als een model meerdere tokens tegelijk probeert te voorspellen met behulp van deze standaardmethoden, zullen er twee grote problemen optreden. De eerste is een grammaticale mismatch. Als het model bijvoorbeeld twee woorden voorspelt na het voorvoegsel ‘Voedende dierenverzorger’, kan het onafhankelijk steekproeven nemen en niet-overeenkomende zinnen produceren, zoals ‘pandavlees’ of ‘leeuwenbamboe’ in plaats van ‘pandabamboe’ en ‘leeuwenvlees’.

Het tweede probleem is gedegenereerde herhaling. Omdat tekst over het algemeen onvoorspelbaar is, zou een model dat 100 toekomstige tokenposities probeert te voorspellen op basis van een standaard dataset alleen ‘de’ voorspellen, aangezien dit het meest voorkomende woord in de Engelse taal is. Dit resulteert erin dat het model onzinnige resultaten produceert zoals “…de de de…” voor toekomstige posities.

Voorspelling van meerdere tokens via zelfdistillatie

Om het probleem van het genereren van een groot aantal tokens te overwinnen, stelden de onderzoekers een nieuwe trainingstechniek voor die gebruik maakt van een leerling-leraarschema. Het studentenmodel, een leermodel voor het voorspellen van meerdere tokens, produceert deterministische multi-tokenblokken. Het lerarenmodel, dat fungeert als een krachtig next-token-voorspellingstaalmodel, evalueert het blok. De leraar treedt op als criticus en berekent hoe redelijk en coherent de door de leerling voorgestelde volgorde is. Als leerlingen ongepaste uitdrukkingen bedenken, zoals ‘bamboe-leeuw’, kent de leraar hoge punten toe, waardoor leerlingen leren dergelijke constructies te vermijden.

Afbeelding tegoed: VentureBeat met Nano Banana Pro

Dit paradigma is geïnspireerd door leren ter versterking van het beleid, omdat het studentenmodel niet simpelweg statische tekst uit het hoofd leert. Het genereert volledige lanceringen (reeksen van acties in RL) onmiddellijk parallel op één feed forward en ontvangt beloningen op basis van hoe goed de leraar denkt dat het is. In tegenstelling tot statische supervisiemethoden waarbij trainingsparen vooraf worden ingesteld, is de feedback hier dynamisch en in realtime gegenereerd op basis van de eigen output van de student. Een sterke leraar verifieert ook de symbolische coherentie, waardoor het leerlingmodel geen gedegenereerde output leert, zoals herhaalde woorden.

Voor ontwikkelaars ligt de schoonheid van deze aanpak in de eenvoud ervan. “Er zijn eigenlijk geen wijzigingen aan de architectuur behalve de toevoeging van aangepaste tokens”, zei Kirchenbauer. Door ongebruikte slots in de bestaande modelinbeddingsmatrix te coöpteren om als zodanig te fungeren mask token, deze techniek zet opeenvolgende bewerkingen om in parallelle bewerkingen. “Elk volgend standaard token-voorspellingstaalmodel kan op deze manier worden aangepast… interne implementaties – MoE, windowed awareness, SSM-lagen, enz. – blijven onaangeroerd en vormen geen belemmeringen voor aanpassing.”

Voor technische teams betekent dit dat aanpassingen kunnen worden toegepast op modellen die al in productie zijn, zonder dat de pijplijn opnieuw hoeft te worden opgebouwd.

Zelfstandig aanpassen

Afbeelding tegoed: VentureBeat met Nano Banana Pro

Het gelijktijdig genereren van meerdere tokens kan de responsnauwkeurigheid op het moment van inferentie nog steeds in gevaar brengen. Om de generatiesnelheid te maximaliseren zonder dat dit ten koste gaat van de uitvoerkwaliteit, introduceren de auteurs een adaptieve decoderingsstrategie genaamd ConfAdapt.

ConfAdapt evalueert bij elke stap een betrouwbaarheidsdrempel, bijvoorbeeld 90%. Dit model genereert blokken tokens, maar slaat alleen tokens op die aan deze hoge betrouwbaarheidsdrempel voldoen of deze overschrijden. Wanneer de komende tekst zeer voorspelbaar of gestructureerd is, zal het vertrouwen van het model zeer hoog zijn. Het accepteert en geeft een groot aantal tokens tegelijk uit, waardoor aanzienlijke rekentijd wordt bespaard op eenvoudige tokens. Vervolgens richt het zijn dure afzonderlijke tokens op moeilijkere tokens die meer rekeninspanning vereisen.

Voorspellingen voor meerdere tokens testen

Om te zien hoe het trainingsparadigma in de praktijk presteert, pasten de onderzoekers hun methode toe op een populair leermodel met open gewichten. Ze testten het krachtige Llama-3.1-8B-Magpie-model voor algemene doeleinden en de kleinere, efficiëntere Qwen3-4B-Instruct-2507, die vaak wordt gekozen voor inzet in kostengevoelige ondernemingen. Beide modellen zijn aangepast aan MetaMathQA, een synthetische dataset voor wiskundeproblemen op de basisschool die sterk afhankelijk is van redeneersporen.

MTP met ConfAdapt

Voorbeeld van een multi-tokenblok gegenereerd met ConfAdapt (bron: arXiv)

Het experiment bracht een duidelijk evenwicht tussen snelheid en nauwkeurigheid aan het licht. Met behulp van de ConfAdapt-strategie bereikt het Llama-3.1-8B-model een versnelling van 3x met minder dan 3% nauwkeurigheidsverlies op wiskundige benchmarks. Het Qwen3-4B-model bereikt dezelfde 3x snelheid met een iets grotere nauwkeurigheidsdaling van 7%. Met agressievere instellingen kan een snelheidsverhoging van 5x worden bereikt, hoewel ze een grotere nauwkeurigheidsstraf met zich meebrengen.

Hoe dit zich vertaalt in taken in de echte wereld, hangt af van de voorspelbaarheid. “Omdat de ConfAdapt-aanpak de snelheid op natuurlijke wijze aanpast aan de inherente entropie in het domein, kan het model, wanneer het precies ‘weet’ wat er daarna zal gebeuren, deze in één keer uitvoeren,” zei hij, wat resulteerde in een enorme versnelling van voorspelbare taken, terwijl er meer stappen werden gebruikt voor onzekere uitvoer.

De versnelling werd ook overgedragen naar domeinen die niet waren opgenomen in de multi-token voorspellingstrainingsfase. Dit omvat taken in hetzelfde domein als de trainingsgegevens, zoals wiskunde en redeneren, maar ook taken met een open einde, zoals creatief schrijven en samenvatten.

Screenshot 20-02-2026 om 21.22.58

Sweetspot MTP met ConfAdapt is ongeveer 3x versnelling (bron: arXiv)

Hoewel transferleren bestaat, mogen bedrijven die deze modellen op specifieke taken toepassen, er niet uitsluitend op vertrouwen. “Onze aanbeveling is om MTP-modellen aan te passen/aan te passen met behulp van voorbeelden uit specifieke industriedomeinen”, aldus Kirchenbauer. “De beste prestaties kunnen worden bereikt als MTP-aanpassing wordt uitgevoerd met behulp van opdrachten uit het implementatiedomein.”

Dient voor compatibiliteit en de weg vooruit

Het onderzoeksteam heeft het vrijgegeven getraind model op knuffelgezicht en zal binnenkort worden vrijgegeven code voor hun MTP-framework. Infrastructuurteams die deze modellen integreren in vLLM of SGLang zullen rekening moeten houden met veranderingen in de manier waarop KV-batching en caching worden afgehandeld – maar dit is een eenmalige technische investering en geen voortdurende last. Kirchenbauer zag echter “geen duidelijke barrières voor integratie” en benadrukte dat het team “met verschillende systeemexperts samenwerkt om de kortste weg naar integratie te identificeren.”

Het advies van Kirchenbauer voor teams die vrijgegeven modellen willen testen: begin met speelgoedaanwijzingen zoals het tellen of herhalen van zinnen om te zien hoe ConfAdapt van toepassing is, en verfijn het model vervolgens met behulp van voorbeelden uit uw specifieke implementatiedomein voor de beste resultaten. “Over het algemeen hopen we dat de implementatie van onze productieklare aanpak de levenscyclus van het bouwen en inzetten van agentmodellen met lage latentie kan vereenvoudigen”, besluit Kirchenbauer. “Terwijl de bestaande versnellingstechnieken voor NTP-modellen zich alleen richten op het benutten van inferentie en logica, introduceert onze aanpak zo weinig complexiteit in de modellen zelf dat ze grotendeels bestaand werk aanvullen.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in