Recursieve taalmodellen (RLMs) is een inferentietechniek ontwikkeld door onderzoekers van MIT CSAIL en behandelt lange opdrachten als de externe omgeving van het model. In plaats van volledige opdrachten in het modelcontextvenster te forceren, stelt het raamwerk LLM in staat zichzelf programmatisch te inspecteren, te parseren en zichzelf recursief aan te roepen via tekstfragmenten.
In plaats van het contextvenster uit te breiden of lange informatie samen te vatten, heeft het MIT-team het redeneren in de lange context geherformuleerd als een systeemprobleem. Door modellen commando’s te laten behandelen als iets dat ze met code kunnen controleren, zorgen recursieve taalmodellen ervoor dat LLM miljoenen tokens kan beschouwen zonder opnieuw te hoeven trainen. Dit biedt bedrijven een praktisch pad om langetermijntaken uit te voeren, zoals codebase-analyse, juridische beoordeling en redeneren in meerdere stappen die routinematig de huidige modellen schenden.
Omdat dit raamwerk is ontworpen als wrapper voor een bestaand model, kan het dienen als vervanging voor applicaties die rechtstreeks naar LLM bellen.
LLM-context is belangrijk
Hoewel grensmodellen steeds geavanceerder worden in hun denkwijze, ontwikkelt hun vermogen om grote hoeveelheden informatie te verwerken zich niet in hetzelfde tempo. Dit knelpunt wordt veroorzaakt door twee verschillende beperkingen: harde fysieke grenzen aan hoeveel tekst een model tegelijk kan verwerken (contextlengte) en “contextverval”.
De uitdaging is volgens de onderzoekers of het mogelijk is om de effectieve contextomvang van LLM’s voor algemene doeleinden te meten op basis van omvang, zonder ze opnieuw te trainen. Deze mogelijkheid wordt steeds belangrijker voor bedrijfsapplicaties, waar LLM wordt toegepast voor langlopende taken waarvoor de verwerking van miljoenen tokens nodig is – een uitdaging die volgens Zhang niet kan worden opgelost door simpelweg het contextvenster uit te breiden.
“Er is een entropie-argument dat impliceert dat je exponentieel meer datamonsters nodig hebt naarmate je de grootte van het effectieve contextvenster vergroot”, vertelde Alex Zhang, een van de auteurs van het artikel, aan VentureBeat.
De huidige benaderingen voor het uitbreiden van de context zijn vaak gebaseerd op compactie, een model dat delen van oude gesprekken samenvat om meer ruimte te creëren. Deze methode mislukt echter voor taken die willekeurige toegang vereisen tot specifieke details aan het begin van de prompt.
Hoe RLM werkt
Het concept achter RLM is ontleend aan “out-of-core” algoritmen die worden gebruikt in klassiek computergebruik. Deze algoritmen zijn ontworpen om datasets te verwerken die te groot zijn om in het hoofdgeheugen van een computer te passen, door de gegevens op de harde schijf op te slaan en alleen de noodzakelijke delen op te halen als dat nodig is.
RLM past deze logica toe op generatieve AI. In plaats van lange prompts rechtstreeks in het neurale netwerk te sturen, laadt het raamwerk de tekst als stringvariabelen in de Python-coderingsomgeving. LLM’s krijgen algemene context over de gegevens (zoals het totale aantal tekens), maar ‘zien’ de tekst in eerste instantie niet.
Zodra de prompt als variabele is opgeslagen, fungeert de LLM als programmeur. Hij schreef Python-code voor interactie met externe variabelen, waarbij hij standaardopdrachten gebruikte om naar de gegevens te kijken. Het model kan bijvoorbeeld reguliere expressies gebruiken om naar specifieke trefwoorden te zoeken, zoals ‘Hoofdstuk 1’ of ‘financiële resultaten’.
Wanneer de code-uitvoering een relevant fragment tegenkomt, haalt RLM dat specifieke fragment eenvoudigweg naar het actieve contextvenster voor analyse.
Als de opdracht bijvoorbeeld een groot boek is, kan LLM een lus schrijven die de hoofdstukgrenzen identificeert en vervolgens subaanroepen activeert om elk hoofdstuk één voor één samen te vatten.
Bij de architectuur zijn doorgaans twee agenten betrokken. Een ‘roottaalmodel’, vaak een krachtig model zoals GPT-5, fungeert als orkestrator. Hij plande de aanpak, schreef de code en beheerde de datastroom in een REPL-omgeving. Een ‘recursief taalmodel’, vaak een sneller en goedkoper model, fungeert als een werker. De LM-root roept deze werkers op om specifieke tekstfragmenten te verwerken die door code zijn geïsoleerd.
Omdat de opdrachten zich in het omgevingsgeheugen bevinden en niet in het modelcontextvenster, kan het systeem veel grotere invoer verwerken dan de trainingslimieten van het model. Belangrijk is dat RLM zich voor de eindgebruiker precies hetzelfde gedraagt als het standaardmodel: het accepteert een tekenreeks en retourneert een antwoord. Hierdoor kunnen bedrijfsteams standaard API-aanroepen omruilen voor RLM.
Voor ontwikkelaars die willen experimenteren is de RLM-code momenteel beschikbaar op GitHub.
“Het belangrijkste argument van RLM is dat de meeste complexe taken kunnen worden opgesplitst in kleinere, ‘lokale’ subtaken”, zegt Zhang. “Deze manier om de ontleding van context en probleem uit te voeren is echter niet triviaal, en het model moet daartoe in staat zijn.”
RLM in actie
Om het raamwerk te valideren, hebben de onderzoekers RLM getest met het basismodel en andere agentbenaderingen zoals CodeAct en samenvattende agenten voor een verscheidenheid aan lange-contexttaken, waaronder het ophalen en beantwoorden van multi-hop-query’s.
De resultaten laten sterke prestatieverbeteringen zien op een schaal van meer dan 10 miljoen tokens. Op Blader door Comp-Plusbenchmarks met inputs van 6 tot 11 miljoen tokens, faalde het standaard basismodel jammerlijk, met een score van 0%. RLM wordt daarentegen ondersteund door GPT-5 behaalde een score van 91,33%, waarmee hij aanzienlijk beter presteerde dan Summary Agent (70,47%) en Codewet (51%).
Dit raamwerk blinkt ook uit in taken met een hoge rekencomplexiteit. Op OOLONG-Pairs, een informatierijke redeneringsbenchmark waarvan de moeilijkheid kwadratisch schaalt met de invoerlengte, faalde het GPT-5-basismodel jammerlijk met een score van slechts 0,04%. RLM behaalde een F1-score (een evenwichtige maatstaf voor precisie en herinnering) van 58%, wat een opkomend vermogen aantoont om intensieve taken uit te voeren die standaardmodellen verlammen. Op dezelfde manier heeft RLM bij een codebegriptaak (CodeQA-benchmark) de prestaties van het GPT-5-basismodel ruimschoots verdubbeld, van 24% naar 62%.
Met betrekking tot het probleem van contextverval laten de gegevens zien dat, hoewel de basisprestaties van GPT-5 snel afnemen naarmate de taakcomplexiteit toeneemt, de prestaties van RLM stabiel blijven en consequent beter presteren dan het basismodel in contexten van meer dan 16.000 tokens.
Ondanks de steeds complexere workflows handhaaft RLM vaak gemiddelde kosten die vergelijkbaar zijn met of lager zijn dan de basiskosten. In de BrowserComp-Plus benchmark kost RLM drie keer minder dan de samenvattende basislijn.
De onderzoekers merken echter op dat het RLM-traject, ondanks de lage mediane kosten, ‘langdurig’ is. Het verwerken van uitschieters kan kostbaar zijn als het model in een lus blijft hangen of overmatige verificatie uitvoert. Hoewel GPT-5 conservatief is in zijn subaanroepen, is het open source Qwen3-coder het model probeert soms duizenden suboproepen uit voor eenvoudige taken.
“Op dit punt moet je misschien je eigen vangrails en logica toepassen om RLM-gedrag te controleren,” zei Zhang. Hij veronderstelde echter dat toekomstige modellen getraind zouden kunnen worden om hun eigen computerbudgetten effectiever te beheren. Bedrijven als Prime Intellect zijn van plan precies dat te doen RLM integreren in het modeltrainingsproces, waarbij mogelijk randgevallen worden afgehandeld wanneer het budget voor modelinferentie stijgt.
Voor ondernemingsarchitecten die beslissen waar ze op willen inzetten, biedt het RLM-framework nieuwe hulpmiddelen voor het omgaan met informatie-intensieve problemen.
“Ik denk dat RLM nog steeds erg nuttig is voor chatbots (denk aan een lange chatgeschiedenis), maar uiteindelijk zijn ze op zoek naar alternatieve manieren om LM te gebruiken,” zei Zhang. “Ik denk dat RLM samenwerkt met standaard capture-methoden zoals RAG; ze dienen niet als vervanging en kunnen in verschillende omgevingen of samen worden gebruikt.”



