Home Nieuws TTT-Discover optimaliseert GPU-kernels 2x sneller dan menselijke experts – door training tijdens...

TTT-Discover optimaliseert GPU-kernels 2x sneller dan menselijke experts – door training tijdens inferentie

Door

februari 5, 2026

Onderzoekers van Stanford, Nvidia en Together AI hebben een nieuwe techniek ontwikkeld die nieuwe oplossingen kan vinden voor zeer complexe problemen. Ze zijn er bijvoorbeeld in geslaagd een kritische GPU-kernel te optimaliseren zodat deze 2x sneller werkt dan eerdere state-of-the-art technologie, geschreven door menselijke experts.

Hun techniek, genaamd “Testtijdtraining om te ontdekken(TTT-Discover), daagt het huidige paradigma uit dat het ‘denk langer’-model mogelijk maakt om over problemen na te denken. Met TTT-Discover kan het model doorgaan met trainen tijdens het inferentieproces en de gewichten bijwerken voor het betreffende probleem.

De grenzen van het ‘bevroren’ redeneren

De huidige AI-strategieën voor ondernemingen zijn vaak gebaseerd op ‘bevroren’ modellen. Of u nu een gesloten of open redeneermodel gebruikt, de modelparameters zijn statisch. Wanneer je deze modellen vraagt, zoeken ze naar antwoorden in hun verschillende trainingsgegevens. Dit werkt goed voor problemen die vergelijkbaar zijn met wat eerdere modellen hebben gezien.

Echte ontdekkingsproblemen, zoals het creëren van een nieuw algoritme of het bewijzen van een nieuwe wiskundige stelling, vallen echter per definitie buiten de distributie. Als de oplossing een logische sprong vereist die niet in de trainingsset zit, zal het bevroren model waarschijnlijk mislukken, ongeacht hoeveel berekeningen u tijdens de inferentie uitvoert.

In commentaar op VentureBeat illustreert Mert Yuksekgonul, een van de auteurs van het artikel en een doctoraalstudent aan Stanford, dit verschil aan de hand van een beroemde wiskundige doorbraak:

“Ik geloof dat het modeldenken bijvoorbeeld niet in staat zou zijn geweest om P != NP te bewijzen zonder testtijdtraining, net zoals Andrew Wiles de laatste stelling van Fermat niet zou hebben kunnen bewijzen zonder de zeven jaar die hij heeft besteed aan het geïsoleerd oplossen van dit ene probleem en voortdurend leren van zijn eigen mislukkingen.”

TTT-Discover behandelt testproblemen niet als vragen die moeten worden beantwoord, maar als omgevingen die onder de knie moeten worden. Wanneer een model een probleem probeert op te lossen, produceert het verschillende soorten gegevens: mislukkingen, gedeeltelijke successen en fouten. In plaats van deze gegevens weg te gooien, gebruikt TTT-Discover deze om de gewichten van het model in realtime bij te werken, waardoor het model zich effectief op die specifieke uitdaging kan concentreren in plaats van een zeer algemeen raamwerk voor probleemoplossing te ontwikkelen.

Een andere benadering van versterkend leren

TTT-Discover zorgt voor een fundamentele verandering in de manier waarop redeneermodellen worden getraind. Bij standaard training voor versterkend leren (RL) is het doel een algemeen beleid dat gemiddeld goed presteert bij veel taken. Bij TTT-Discover is het doel om de beste oplossing te vinden voor een heel specifiek probleem, en beleid is “een middel om dat doel te bereiken”, aldus de auteurs. Zodra het model een artefact vindt (dat wil zeggen geoptimaliseerde code, bewijs of molecuul), kan het neurale netwerk dat het artefact heeft gegenereerd, worden weggegooid.

Om dit te bereiken hebben de onderzoekers twee specifieke componenten ontworpen die TTT-Discover onderscheiden van standaard versterkend leren:

Entropische doelen: Standaard RL optimaliseert de gemiddelde verwachte beloning. Als een model een riskant pad bewandelt en faalt, zal standaard RL het model bestraften. TTT-Discover draait dit om. Deze aanpak maakt gebruik van ‘entropische doelen’ die exponentieel rekening houden met resultaten die hoge beloningen opleveren. Dit dwingt het model om het ‘veilige’ gemiddelde antwoord te negeren en agressief te zoeken naar ‘eureka’-uitschieters, d.w.z. oplossingen waarvan de kans klein is dat ze worden gevonden, maar die zeer grote beloningen bieden.
PUCT-zoekopdracht: Dit systeem introduceert PUCT, een boomzoekalgoritme geïnspireerd op AlfaZero. Het verkent verschillende oplossingspaden en bouwt een dataset van inspanningen op. Het model traint vervolgens in realtime op deze dataset en leert herkennen welke deelstappen waardevolle resultaten opleveren.

Het belangrijkste is dat deze methode het beste werkt bij problemen met continue beloningssignalen. Het systeem heeft een manier nodig om extra voortgang te meten, zoals ‘verwerkingstijd in microseconden’ of ‘foutpercentage’, in plaats van een binair ‘pass/fail’-signaal. Hierdoor kan het model geleidelijke verbeteringen volgen richting de optimale oplossing.

‘Inferentiezware’ economie

Voor bedrijven die gewend zijn om fracties van een cent per API-oproep te betalen, vereist het kostenprofiel van TTT-Discover een mentaliteitsverandering. In hun experimenten rapporteerden de onderzoekers dat één enkel ontdekkingsproces ongeveer 50 trainingsstappen en duizenden lanceringen omvatte, tegen een kostprijs van ongeveer $ 500 per nummer.

TTT-Discover kan worden gebruikt voor ‘statische activa van hoge waarde’, in tegenstelling tot triviale en repetitieve problemen die kunnen worden opgelost met bestaande modellen en benaderingen.

Neem een cloud-native bedrijf dat een datapijplijn beheert die elke nacht petabytes aan informatie verwerkt. Als de pijplijn afhankelijk is van specifieke SQL-query’s of GPU-kernels, kan het optimaliseren van die code met slechts 1% honderdduizenden dollars aan jaarlijkse computerkosten besparen. In deze context is het uitgeven van $500 om een 50% snellere kernel te vinden een triviale uitgave met een onmiddellijke ROI.

“Dit is het meest logisch voor beslissingen met een lage frequentie en een hoge impact, waarbij een enkele verbetering veel meer waard is dan de rekenkosten,” zei Yuksekgonul. “Supply chain routing, medicijnontwerp en materiaalontdekking komen in aanmerking. In deze situaties kan het gemakkelijk de moeite waard zijn om honderden dollars uit te geven aan een enkele ontdekkingsstap.”

Overwegingen bij de implementatie

Een van de belangrijkste bevindingen voor de adoptie door ondernemingen is dat TTT-Discover geen eigen grensmodel vereist. Onderzoekers bereikten geavanceerde resultaten met behulp van gpt-oss-120bOpenAI open gewichtsmodel. Onderzoekers hebben heeft de code vrijgegeven voor TTT-Discover zodat onderzoekers en ontwikkelaars het voor hun eigen modellen kunnen gebruiken.

Omdat deze techniek met een open model werkt, kunnen bedrijven deze ‘discovery loop’ volledig binnen hun eigen beveiligde VPC of H100-cluster uitvoeren zonder hun bedrijfseigen gegevens naar servers van derden te sturen.

“Als een bedrijf al versterkend leren uitvoert, is er geen extra infrastructuur nodig”, zegt Yuksekgonul. “TTT-Discover gebruikt dezelfde trainingsstack (GPU, launch worker, optimizer, checkpoint).”

Als ze RL nog niet gebruiken, moeten ze die infrastructuur bouwen. Bedrijven kunnen echter ook bestaande oplossingen gebruiken om de procescomplexiteit te verminderen. De onderzoekers organiseerden het verloop van deze training met behulp van Tinker-API door Thinking Machines, een API die de complexiteit van gedistribueerde training en gevolgtrekking beheert.

“Tools zoals Tinker (en open varianten, bijvoorbeeld OpenTinker) verlagen de installatiekosten, en de arbeids- en computerkosten zullen waarschijnlijk in de loop van de tijd dalen”, zei hij.

Gebruiksscenario’s uit de echte wereld

De onderzoekers pasten TTT-Discover toe in vier verschillende technische domeinen: systeemtechniek, algoritmeontwerp, biologie en wiskunde. In bijna elk voorbeeld levert deze methode iets geavanceerds op.

In één experiment optimaliseerde het model GPU-kernels voor matrixvermenigvuldiging (inclusief de gebruikte “TriMul” -kernel). Alfa-vouw), behaalt uitvoeringssnelheden die tot 2x sneller zijn dan de vorige state-of-the-art en presteert beter dan de beste door mensen geschreven kernels op het scorebord.

TTT-Ontdek GPU-kernelontwerpen — TTT-Discover ontdekt SOTA GPU-kernel (bron: arXiv)

In een competitief programmeerscenario (DiCoder), het lost complexe heuristische problemen (bijvoorbeeld het optimaliseren van geometrische beperkingen voor visnetten) beter op dan eerdere toonaangevende menselijke experts en AI-basislijnen.

Voor bedrijven hangt de overgang van academische benchmarks naar bedrijfswaarde af van één specifieke beperking: het bestaan van verifieerbare scalaire signalen. In tegenstelling tot tekstgenererende chatbots heeft TTT-Discover exacte statistieken nodig (bijvoorbeeld verwerkingstijd, foutenpercentage of winstmarge) om te optimaliseren.

Yuksekgonul zei dat deze eisen een duidelijke grens aangeven tussen waar deze technologie wel en niet kan worden gebruikt. “Tegenwoordig zijn betrouwbare scalaire voortgangssignalen – kosten, fouten, moleculaire eigenschappen – de belangrijkste vereiste, zodat systemen kunnen worden geoptimaliseerd”, zei hij.

Dit leidt ertoe dat het bedrijf ‘harde’ technische en operationele uitdagingen omarmt, zoals logistiek, supply chain en resource management, waarbij problemen zoals vlootroutering of bemanningsplanning vaak afhankelijk zijn van statische heuristieken. TTT-Discover kan dit behandelen als een optimalisatieomgeving, waarbij uren besteed worden aan het vinden van een routestructuur die 5% bespaart op de dagelijkse brandstofkosten.

De eis voor expliciete verificatie sluit kwalitatieve taken uit, zoals het ‘schrijven van een betere marketingstrategie’, waarbij verificatie subjectief is en vatbaar voor interferentie.

“Problemen die moeilijk te verifiëren zijn, zijn nog steeds open vragen”, aldus Yuksekgonul.

Met de huidige technologie is de beste manier om verificateurs te ontwerpen, maar “ze robuust en moeilijk te implementeren te maken is een uitdaging, en we hebben nog geen goede oplossing”, voegde hij eraan toe.

Van gevolgtrekking naar ontdekking

De bredere implicatie is dat AI-stacks van ondernemingen mogelijk moeten evolueren om dit soort probleem-voor-probleem leren te ondersteunen.

“Systemen die op bevroren modellen zijn gebouwd, zullen aanpassing per probleem (of per domein) moeten ondersteunen, en bedrijven zullen betere probleemspecificatie en interne feedbacksignalen nodig hebben om effectief te kunnen leren tijdens de test”, zegt Yuksekgonul. “Als de training binnen een particuliere VPC plaatsvindt, kan de trainingslus ook worden geïntegreerd met een groter deel van de interne omgeving van het bedrijf, en niet alleen met de centrale laboratoriumpijplijn.”

Voor bedrijven ligt het voordeel in het identificeren van ‘miljoenendollarproblemen’, namelijk optimalisatie-uitdagingen waarbij verifieerbare meetgegevens bestaan, maar de menselijke vooruitgang tot stilstand is gekomen. Dit is een kandidaat voor TTT-Discover. Door hogere latentie en kosten voor bepaalde vragen te accepteren, kunnen bedrijven hun inferentiecomputers omzetten in een geautomatiseerd R&D-laboratorium, waar ze oplossingen kunnen vinden die voorheen buiten het bereik van mensen en bevroren AI-modellen lagen.

Nieuwsbron

TTT-Discover optimaliseert GPU-kernels 2x sneller dan menselijke experts – door training tijdens inferentie

De grenzen van het ‘bevroren’ redeneren

Een andere benadering van versterkend leren

‘Inferentiezware’ economie

Overwegingen bij de implementatie

Gebruiksscenario’s uit de echte wereld

Van gevolgtrekking naar ontdekking

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

JetBlue-passagiersvliegtuig en vliegtuig van de Amerikaanse luchtmacht bijna neergestort in Venezuela | Amerikaans nieuws

Donald Trump zegt dat hij ‘opruiende’ politici niet met de dood bedreigt

Na het winnen van de geweldige race en Big Brother, onthult Jag Bains of...

Recensie ‘The Abandons’: De vijandige matriarch betreedt oude westerse grond