Grote taalredeneringsmodellen (LLM) zijn ontworpen om complexe problemen op te lossen door ze op te splitsen in een reeks kleinere stappen. Deze geavanceerde modellen blinken uit in uitdagende taken zoals geavanceerd programmeren en meerstapsplanning.
Het ontwikkelen van redeneermodellen vergt echter enorme hoeveelheden rekenwerk en energie vanwege inefficiënties in het trainingsproces. Terwijl sommige krachtige processors complexe zoekopdrachten blijven verwerken, doen andere processors in de groep niets.
Onderzoekers van MIT en elders hebben een manier gevonden om deze computeruitval te gebruiken om de training van redeneermodellen efficiënt te versnellen.
Hun nieuwe methode traint automatisch een kleiner, sneller model om de output van LLM met meer redenering te voorspellen, wat vervolgens wordt geverifieerd door het grotere model. Dit vermindert de hoeveelheid werk die het redeneermodel moet doen, waardoor het trainingsproces wordt versneld.
De sleutel tot dit systeem is het vermogen om kleinere modellen adaptief te trainen en in te zetten, zodat het alleen werkt als sommige processors niet in gebruik zijn. Door gebruik te maken van computerbronnen die anders verspild zouden worden, wordt de training versneld zonder dat dit extra kosten met zich meebrengt.
Wanneer deze methode wordt getest op meerdere redenerende LLM’s, verdubbelt deze de trainingssnelheid terwijl de nauwkeurigheid behouden blijft. Dit kan de kosten verlagen en de energie-efficiëntie verhogen bij de ontwikkeling van geavanceerde LLM’s voor toepassingen zoals het voorspellen van financiële trends of het detecteren van risico’s in het elektriciteitsnet.
“Mensen willen modellen die complexere taken aankunnen. Maar als dat het doel is van modelontwikkeling, dan moeten we prioriteit geven aan efficiëntie. We hebben een verliesvrije oplossing voor dit probleem gevonden en vervolgens een full-stack systeem ontwikkeld dat in de praktijk behoorlijk dramatische versnellingen kan opleveren”, zegt Qinghao Hu, een postdoc van het MIT en een van de hoofdauteurs van een artikel over de techniek.
Hij werd op het papier vergezeld door co-hoofdauteurs Shang Yang, een afgestudeerde student elektrotechniek en computerwetenschappen (EECS); Junxian Guo, een EECS-afgestudeerde student; senior auteur Song Han, professor bij EECS, lid van het Electronics Research Laboratory en toonaangevend NVIDIA-wetenschapper; evenals anderen bij NVIDIA, ETH Zürich, MIT-IBM Watson AI Lab en de Universiteit van Massachusetts in Amherst. Dit onderzoek zal worden gepresenteerd op de ACM International Conference on Architectural Support for Programming Languages and Operating Systems.
Knelpunten in de opleiding
Ontwikkelaars willen dat LLM-redeneringen fouten in hun kritische denkprocessen kunnen identificeren en corrigeren. Dit vermogen stelt hen in staat lastige vragen aan te pakken die een standaard LLM zouden doen struikelen.
Om hen deze vaardigheden te leren, trainen ontwikkelaars LLM-redeneren met behulp van een techniek die versterkend leren (RL) wordt genoemd. Het model genereert verschillende mogelijke antwoorden op een vraag, ontvangt een beloning voor de beste kandidaat en wordt bijgewerkt op basis van de beste antwoorden. Deze stappen worden duizenden keren herhaald terwijl het model leert.
Maar de onderzoekers ontdekten dat het proces van het genereren van meerdere antwoorden, het uitrollen genoemd, 85 procent van de uitvoeringstijd kan in beslag nemen die nodig is voor RL-training.
“Het updaten van het model – wat het eigenlijke ‘trainings’-gedeelte is – kost in vergelijking weinig tijd,” zei Hu.
Dit knelpunt doet zich voor bij standaard RL-algoritmen omdat alle processors in de trainingsgroep hun antwoorden moeten voltooien voordat ze door kunnen gaan naar de volgende stap. Omdat sommige processors aan een zeer lange respons werken, wachten andere processors die kortere antwoorden produceren, totdat deze is voltooid.
“Ons doel is om deze inactieve tijd om te zetten in versnelling, zonder verspilde kosten”, voegde Hu eraan toe.
Ze probeerden een bestaande techniek, speculatieve decodering genaamd, te gebruiken om het proces te versnellen. Speculatieve decodering omvat het trainen van een kleiner model, een tekenaar genaamd, om snel de toekomstige output van het grotere model te raden.
Het grotere model verifieert de vermoedens van de ontwerper en de ontvangen antwoorden worden gebruikt voor training.
Omdat grotere modellen alle gissingen van de ontwerper in één keer kunnen verifiëren, in plaats van elke output opeenvolgend te produceren, versnellen ze het proces.
Adaptieve oplossing
Maar bij speculatieve decodering wordt het tekenmodel doorgaans slechts één keer getraind en blijft het statisch. Dit maakt deze techniek onhaalbaar voor versterkend leren, omdat het redeneermodel tijdens de training duizenden keren wordt bijgewerkt.
De statische ontwerper wordt na een paar stappen snel oud en nutteloos.
Om dit probleem te overwinnen, creëerden onderzoekers een flexibel systeem dat bekend staat als “Taming the Long Tail” of TLT.
Het eerste deel van TLT is een adaptieve tekentrainer, die vrije tijd op een inactieve processor gebruikt om een tekenmodel on-the-fly te trainen, zodat het op één lijn blijft met het doelmodel zonder extra computerbronnen te gebruiken.
Het tweede onderdeel, de adaptieve lanceerengine, beheert speculatieve decodering om automatisch de optimale strategie voor elke nieuwe set invoer te selecteren. Dit mechanisme verandert de speculatieve decoderingsconfiguratie op basis van kenmerken van de trainingswerklast, zoals het aantal invoer dat door het conceptmodel wordt verwerkt en het aantal invoer dat door het doelmodel wordt ontvangen tijdens verificatie.
Bovendien hebben onderzoekers het model zo ontworpen dat het licht van gewicht is, zodat het snel kan worden getraind. TLT hergebruikt enkele componenten van het redeneermodeltrainingsproces om de ontwerper te trainen, wat resulteert in aanvullende versnellingsverbeteringen.
“Zodra sommige processors hun korte vragen hadden voltooid en inactief werden, hebben we ze onmiddellijk verplaatst om conceptmodeltraining uit te voeren met dezelfde gegevens die ze gebruikten voor het lanceringsproces. Het belangrijkste mechanisme was onze adaptieve speculatieve decodering – deze vooruitgang zou zonder dit niet mogelijk zijn geweest”, zei Hu.
Ze testten TLT op verschillende redeneer-LLM’s die waren getraind met behulp van datasets uit de echte wereld. Het systeem versnelt de training tussen 70 en 210 procent, terwijl de nauwkeurigheid van elk model behouden blijft.
Als extra bonus kan het kleine tekenmodel eenvoudig worden gebruikt voor efficiënte implementatie als gratis bijproduct.
In de toekomst willen de onderzoekers TLT integreren in meer soorten trainings- en inferentiekaders en nieuwe toepassingen voor versterkend leren ontdekken die met deze aanpak kunnen worden versneld.
“Aangezien redeneren een grote werklast blijft die de vraag naar gevolgtrekkingen stimuleert, doet Qinghao TLT uitstekend werk bij het overwinnen van het computationele knelpunt bij het trainen van deze redeneermodellen. Ik denk dat deze methode zeer nuttig zal zijn in de context van efficiënt AI-computing,” zei Han.
Dit werk werd gefinancierd door het MIT-IBM Watson AI Lab, het MIT AI Hardware Program, de MIT Amazon Science Hub, Hyundai Motor Company en de National Science Foundation.



