Home Nieuws Train-to-Test-schaling uitgelegd: hoe u uw end-to-end AI-rekenbudget voor gevolgtrekking kunt optimaliseren

Train-to-Test-schaling uitgelegd: hoe u uw end-to-end AI-rekenbudget voor gevolgtrekking kunt optimaliseren

Door

april 17, 2026

Standaardrichtlijnen voor het bouwen van grote taalmodellen (LLM’s) optimaliseren alleen de trainingskosten en negeren de gevolgtrekkingskosten. Dit vormt een uitdaging voor toepassingen in de echte wereld die gebruik maken van inferentietijdschalingstechnieken om de nauwkeurigheid van modelreacties te verbeteren, zoals het trekken van meerdere redeneringsvoorbeelden uit het model tijdens de implementatie.

Om deze kloof te overbruggen hebben onderzoekers van de Universiteit van Wisconsin-Madison en Stanford University het geïntroduceerd Oefen-om-te-testen (T²) Schalingswet, een raamwerk dat gezamenlijk de grootte van de parameters van een model, het volume van de trainingsgegevens en het aantal inferentiemonsters tijdens de test optimaliseert.

In de praktijk bewijst hun aanpak dat het computationeel optimaal is om veel kleinere modellen te trainen op veel meer gegevens dan traditionele regels voorschrijven, en vervolgens de bespaarde computationele overhead te gebruiken om meerdere iteratieve samples te genereren voor gevolgtrekking.

Voor ontwikkelaars van zakelijke AI-applicaties die hun eigen modellen trainen, biedt dit onderzoek een bewezen blauwdruk voor het maximaliseren van het rendement op investeringen. Dit laat zien dat AI-redeneringen niet noodzakelijkerwijs vereisen dat grote bedragen aan grensmodellen worden uitgegeven. Kleinere modellen kunnen daarentegen betere prestaties leveren bij complexe taken, terwijl de inferentiekosten per zoekopdracht onder controle blijven binnen de implementatiebudgetten in de echte wereld.

Conflicterende schaalwetten

Schaalwetten zijn een belangrijk onderdeel van de ontwikkeling van grote taalmodellen. Schaalwetten vóór de training bepalen de beste manier om berekeningen toe te wijzen tijdens het bouwen van modellen Wet op de schaal van de examentijd begeleidt hoe u berekeningen kunt toewijzen tijdens de implementatie, zoals het model ‘langer laten nadenken’ of meerdere redeneringsvoorbeelden genereren om een complex probleem op te lossen.

Het probleem is dat deze schaalwetten onafhankelijk van elkaar zijn ontwikkeld, ook al zijn ze in wezen met elkaar verbonden.

De grootte van de parameters van een model en de trainingsduur bepalen rechtstreeks de kwaliteit en de kosten per zoekopdracht van de gevolgtrekkingsvoorbeelden. Momenteel is de gouden standaard voor vooropleiding in de sector Chinchilla-regelswat een optimale rekenratio suggereert van ongeveer 20 trainingstokens voor elke modelparameter.

Makers van moderne AI-modelsuites, zoals Llama, Gemma en Qwen, overtreden deze regel echter vaak door hun kleine modellen opzettelijk te overtrainen op grote hoeveelheden gegevens.

Zoals Nicholas Roberts, een van de auteurs van het artikel, aan VentureBeat vertelde, haperen traditionele benaderingen bij het bouwen van complexe workflows voor agenten: “Naar mijn mening valt de inferentiestapel uiteen wanneer elke inferentieoproep duur is. Dit gebeurt wanneer modellen groot zijn en je veel herhaalde steekproeven moet doen.” In plaats van te vertrouwen op grote modellen, kunnen ontwikkelaars compacte, overgetrainde modellen gebruiken om deze iteratieve bemonstering tegen lagere kosten uit te voeren.

Maar omdat de schaalwetten van training en testtijd afzonderlijk worden onderzocht, bestaat er geen strikt raamwerk om te berekenen in hoeverre een model overtraind moet worden op basis van het aantal redeneermonsters dat het tijdens de implementatie moet genereren.

Als gevolg hiervan bestond er voorheen geen formule die de modelgrootte, het trainingsdatavolume en het budget voor testtijdinferentie gezamenlijk optimaliseerde.

De reden waarom dit raamwerk moeilijk te formuleren is, is omdat pre-training en testtijdschaling twee verschillende wiskundige talen gebruiken. Tijdens de pre-training worden de prestaties van het model gemeten met behulp van ‘verlies’, een vloeiende, continue metriek die voorspellingsfouten bijhoudt terwijl het model leert.

Tijdens het testen gebruiken ontwikkelaars real-world downstream-metrieken om het redeneervermogen van het model te evalueren, zoals pass@k, dat de waarschijnlijkheid meet dat een model ten minste één correct antwoord zal opleveren bij k onafhankelijke en herhaalde pogingen.

De training-to-test-schalingswet

Om de kloof tussen training en implementatie te dichten, introduceerden onderzoekers Train-to-Test (T²) schaalwet. Op een hoog niveau voorspelt dit raamwerk de redeneerprestaties van een model door drie variabelen als één enkele vergelijking te behandelen: de grootte van het model (N), het volume aan trainingstokens dat het leert (D), en het aantal redeneringsmonsters dat tijdens gevolgtrekking wordt gegenereerd (k).

“Train-to-test” combineert wetten voor het opschalen van pre-training en testen in een uniform raamwerk (bron: arXiv)

Q² combineert pre-training- en inferentiebudgetten in één enkele optimalisatieformule die rekening houdt met de basiskosten van het trainen van het model (6ND) en de gecombineerde kosten van het herhaaldelijk opvragen van inferentie (2Nk). De onderzoekers probeerden verschillende modelleringsbenaderingen: ofwel het modelleren van verlies vóór training, ofwel het testen van de prestatie (pass@k) als een functie van N, D en k.

De eerste benadering neemt de wiskundige vergelijking die gewoonlijk wordt gebruikt voor Chinchilla-schaling (die de modelvoorspellingsfout of het verlies berekent) en wijzigt deze direct door een nieuwe variabele toe te voegen die rekening houdt met het aantal herhaalde testtijdmonsters (k). Hierdoor kunnen ontwikkelaars zien hoe het verbeteren van inference computing het algehele modelfoutpercentage verlaagt.

De tweede benadering modelleert rechtstreeks de stroomafwaartse pass@k-nauwkeurigheid. Dit vertelt ontwikkelaars de waarschijnlijkheid dat hun applicatie een probleem zal oplossen binnen een bepaald computerbudget.

Maar moeten bedrijven dit raamwerk voor elke toepassing gebruiken? Roberts verduidelijkt dat deze aanpak zeer gespecialiseerd is. “Ik kan me voorstellen dat je niet veel profijt zult hebben van een kennisintensieve toepassing, zoals een chatmodel”, zegt hij. In plaats daarvan: “T² op maat gemaakt voor toepassingen die veel nadenken vereisen, zoals coderen, waarbij je normaal gesproken iteratieve bemonstering zou gebruiken als methode voor het opschalen van de testtijd.”

Wat het betekent voor ontwikkelaars

Om T te valideren² schaalwetten bouwden de onderzoekers uitgebreide tests op meer dan 100 taalmodellen, variërend van 5 miljoen tot 901 miljoen parameters. Ze trainden 21 nieuwe, hoogopgeleide controlepunten helemaal opnieuw om te testen of hun wiskundige voorspellingen correct waren. Vervolgens vergeleken ze het model op acht verschillende taken, waaronder datasets uit de echte wereld zoals SciQ en OpenBookQA, evenals synthetische taken die waren ontworpen om rekenkunde, ruimtelijk redeneren en kennisbehoud te testen.

Beide wiskundige modellen bewijzen dat de computationele optimale limiet drastisch verschuift ten opzichte van de standaard Chinchilla-schaling. Om de prestaties met een vast budget te maximaliseren, is de optimale keuze een model dat veel kleiner is en getraind is op meer data vergeleken met de traditionele regel van 20 tokens per parameter.

praktijk-tot-test prestaties — De training-to-test-schalingswet laat zien dat kleine, overgetrainde modellen beter presteren dan modellen die zijn geoptimaliseerd voor Chinchilla bij redeneringstaken (bron: arXiv)

In hun experimenten presteerde het kleine, overtrainde model consistent beter dan het grotere, voor Chinchilla geoptimaliseerde model bij alle acht evaluatietaken, waarbij rekening werd gehouden met de bemonsteringskosten tijdens de test.

Voor ontwikkelaars die deze bevindingen willen implementeren, zijn de technische barrières erg laag.

“Er is geen noodzaak voor iets speciaals om de testtijden te schalen met ons huidige model,” zei Roberts. “Bij de implementatie kunnen ontwikkelaars daadwerkelijk infrastructuur integreren die het samplingproces efficiënter maakt (bijvoorbeeld KV-caching als je transformatoren gebruikt).”

KV-cache helpt door eerder verwerkte context op te slaan, zodat het model de initiële opdrachten niet opnieuw hoeft te lezen voor elk nieuw redeneervoorbeeld.

Extreme overtraining heeft echter praktische gevolgen. Hoewel overtrainde modellen erg koppig en moeilijk te verfijnen kunnen zijn, merkt Roberts op dat wanneer ze onder toezicht verfijning toepasten, “hoewel deze effecten aanwezig waren, ze niet sterk genoeg waren om het optimale model terug te geven aan Chinchilla.” De optimale computerstrategie blijft gericht op compacte modellen.

Teams die dit tot het uiterste drijven, moeten echter oppassen dat ze de grenzen van fysieke data niet bereiken. “Een andere invalshoek is dat als je onze aanbevelingen voor overtraining tot het uiterste doorvoert, je misschien wel zonder trainingsgegevens komt te zitten,” zei Roberts, verwijzend naar de dreigende ‘datamuur’ waar hoogwaardige internetgegevens opraken.

Deze experimenten bevestigen dat als een applicatie afhankelijk is van het genereren van meerdere test-time redeneervoorbeelden, agressieve overtraining op een compact model praktisch en wiskundig gezien de meest effectieve manier is om het end-to-end computerbudget uit te putten.

Om ontwikkelaars op weg te helpen, is het onderzoeksteam van plan binnenkort hun controlepunten en code te openen, zodat bedrijven hun eigen gegevens kunnen invoeren en het schaalgedrag onmiddellijk kunnen testen. Uiteindelijk dient dit raamwerk als een balancerende kracht in de AI-industrie.

Dit is vooral belangrijk omdat de hoge kosten van grensmodellen onbetaalbaar kunnen zijn wanneer u agenttoepassingen schaalt die afhankelijk zijn van redeneermodellen.

“T² Het verandert fundamenteel wie krachtige redeneermodellen kan bouwen’, besluit Roberts. ‘Misschien heb je geen enorm computerbudget nodig om geavanceerd te kunnen redeneren. In plaats daarvan heb je goede data nodig en een intelligente toewijzing van budgetten voor training en inferentie.”

Nieuwsbron

Train-to-Test-schaling uitgelegd: hoe u uw end-to-end AI-rekenbudget voor gevolgtrekking kunt optimaliseren

Conflicterende schaalwetten

De training-to-test-schalingswet

Wat het betekent voor ontwikkelaars

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Onafhankelijke studio’s hebben moeite om het hoofd boven water te houden nu de film-...

Deontay Wilder noemt tegenstanders die hij wil in gevaarlijke tweegevechtsplannen: ‘Ik heb mijn manager...

Valve’s Steam Deck is het nieuwste slachtoffer van het wereldwijde geheugentekort

Toegang geweigerd