In de rommelige wereld van Large Language Model (LLM)-optimalisatie hebben ingenieurs de afgelopen jaren steeds esoterischere rituelen ontwikkeld om betere antwoorden te krijgen.
We hebben ‘Chain Thought’ gezien (waarbij het model wordt gevraagd om stap voor stap en vaak na te denken, waarbij het ‘spoor van de redenering’ aan de gebruiker wordt getoond), ‘Emotionele chantage’ (het model vertelt dat haar carrière afhangt van haar antwoord, of dat dat inderdaad het geval is. beschuldigd van seksuele intimidatie), en complexe multi-shot-frameworks.
Maar een nieuw artikel van Google Research suggereert dat we er misschien te veel over nadenken. De onderzoekers ontdekten dat het simpelweg herhalen van de invoerquery (het kopiëren en plakken van de opdracht zodat deze twee keer verschijnt) de prestaties consequent verbeterde bij grote modellen, waaronder Gemini, GPT-4o, Claude en DeepSeek.
Het artikel met de titel “Snelle herhaling verbetert het niet-redeneren van LLMdie vorige maand vlak voor de vakantie werd uitgebracht, presenteert een vrijwel eenvoudige bevinding: voor taken die geen complexe redeneerstappen vereisen, levert het tweemaal uitspreken van een commando veel betere resultaten op dan het één keer uitspreken ervan.
Sterker nog, vanwege de manier waarop de transformatorarchitectuur werkt, levert deze ‘ene rare truc’ vrijwel geen nadelen op in termen van opwekkingssnelheid.
Causale blinde vlekken
Om te begrijpen waarom het herhalen van vragen supercomputers slimmer maakt, moet je kijken naar de architectonische beperkingen van het standaard Transformer-model.
De meeste moderne LLM’s zijn getraind als ‘causale’ taalmodellen. Dat wil zeggen dat ze tekst strikt van links naar rechts verwerken. Terwijl het model het vijfde token in uw zin verwerkt, kan het token 1 tot en met 4 “bijwonen” (let op), maar het heeft geen kennis van token 6, omdat het nog niet heeft plaatsgevonden.
Dit creëert fundamentele beperkingen in de manier waarop het model gebruikersquery’s begrijpt. Zoals de auteurs opmerken, is de volgorde van de informatie erg belangrijk.
De query is opgemaakt als levert vaak andere resultaten op dan omdat in het laatste geval het model de vraag leest voordat hij de context kent waarin deze wordt toegepast.
Snelle iteratie doorbreekt deze beperking door de invoer te wijzigen in de .
Wanneer het model begint met verwerken Seconde query-iteratie, het heeft de eerste iteratie “gelezen”. Hierdoor kunnen tokens in de tweede kopie alle tokens in de eerste kopie verwerken.
In feite heeft de tweede iteratie een vorm van tweerichtingsaandacht: het kan ’terugkijken’ naar de hele vraag om onduidelijkheden op te lossen of specifieke details op te pikken die mogelijk in één iteratie zijn gemist.
Benchmark: 47 overwinningen, 0 verliezen
De onderzoekers, Yaniv Leviathan, Matan Kalman en Yossi Matias, testten deze hypothese op zeven populaire benchmarks, waaronder ARC, OpenBookOA, GSM8K en MMLU-Pro. Ze evalueerden zeven verschillende modellen, variërend van lichtgewicht modellen zoals de Gemini 2.0 Flash Lite en GPT-4o-mini tot zwaargewicht modellen zoals de Claude 3.7 Sonnet en DeepSeek V3. De resultaten waren statistisch verrassend. Wanneer u om een model vraagt Nee Door gebruik te maken van expliciete redenering (dat wil zeggen door alleen directe antwoorden te geven), won snelle herhaling 47 van de 70 onderlinge tests vergeleken met de basislijn, met een verlies van nul. Dergelijke winsten zijn vooral dramatisch bij taken waarbij het nauwkeurig ophalen van een prompt vereist is. Het team ontwierp een aangepaste ‘NameIndex’-benchmark, waarbij het model een lijst met 50 namen kreeg en werd gevraagd de 25e naam te identificeren.
Deze enorme sprong illustreert perfect de ‘causale blinde vlek’. In één keer kan het model zijn telling kwijtraken als het de 25e naam bereikt. In een iteratief proces heeft het model feitelijk de volledige lijst in het “werkgeheugen” voordat wordt geprobeerd de ophaaltaak te voltooien.
Latency’s ‘Gratis lunch’.
Doorgaans verhoogt het toevoegen van tekst aan opdrachten de kosten en de latentie. Als u de invoer verdubbelt, verdubbelt uw wachttijd toch zeker? Verrassend genoeg, nee. Dit artikel laat zien dat snelle iteratie in wezen ‘gratis’ is wat betreft de door de gebruiker waargenomen latentie. LLM-verwerking is verdeeld in twee fasen:
-
Voorvullen: Het model verwerkt invoeropdrachten. Dit is zeer parallelleerbaar; De GPU kan tegelijkertijd aan de gehele promptmatrix werken.
-
Generatie (decodering): Dit model produceert antwoorden per token. Het is serieel en traag.
Snelle herhaling zal alleen maar bijdragen aan het werk binnenin voorvullen fase. Omdat moderne hardware het voorladen zo efficiënt afhandelt, merken gebruikers nauwelijks het verschil. De onderzoekers ontdekten dat het herhalen van het commando wel degelijk effect had Nee het vergroten van de lengte van het gegenereerde antwoord vergroot voor de meeste modellen ook niet de latentie van de “tijd tot het eerste token”. De enige uitzondering waren de Anthropic-modellen (Claude Haiku en Sonnet) op zeer lange verzoeken, waarbij de pre-fill-fase uiteindelijk op een probleem stuitte. Maar voor de meeste gebruiksgevallen verbetert deze techniek de nauwkeurigheid zonder de chatervaring te vertragen.
Redeneren versus redeneren Herhaling
Er is een voorbehoud: deze techniek is voornamelijk bedoeld voor ‘niet-redenerende’ taken – scenario’s waarin u een direct antwoord wilt in plaats van een stapsgewijze afleiding.
Toen de onderzoekers snelle herhaling testten in combinatie met ‘Thinking Chains’ (waarbij het model werd gevraagd ‘stap voor stap na te denken’), verdwenen de meeste voordelen en lieten neutrale tot licht positieve resultaten zien (5 overwinningen, 1 verlies, 22 gelijke spelen).
De auteurs beweren dat redeneermodellen van nature zelf een versie van herhaling uitvoeren. Wanneer een model ‘denkt’, herhaalt het vaak het uitgangspunt van de vraag in de output die het produceert voordat het wordt opgelost. Daarom is het expliciet herhalen van opdrachten bij invoer overbodig.
Voor toepassingen waarbij u snelle, directe antwoorden nodig heeft zonder de breedsprakigheid (en de kosten) van lange gedachtegangen, biedt snelle iteratie echter een krachtig alternatief.
Strategische implementatie voor bedrijven
Voor bedrijfsleiders vertegenwoordigt dit onderzoek het zeldzaamste van alles in de AI-ontwikkeling: ‘gratis’ optimalisatie. Maar kapitalisatie vereist nuance; dit zijn geen instellingen die blindelings binnen de hele organisatie kunnen worden gewijzigd, maar eerder tactische aanpassingen die van invloed zijn op de techniek, orkestratie en beveiliging.
Voor technische leiders die de eeuwige driehoek van snelheid, kwaliteit en kosten in evenwicht houden, biedt snelle iteratie een manier om boven uw gewichtsklasse uit te stijgen. Uit de gegevens blijkt dat kleinere, snellere modellen, zoals de Gemini 2.0 Flash Lite, een vrijwel perfecte ophaalnauwkeurigheid kunnen bereiken (van 21,33% naar 97,33%) door de invoer slechts twee keer te verwerken.
Dit verandert de modelselectiecalculus: voordat ze upgraden naar een groter, duurder model om het knelpunt in de nauwkeurigheid te overwinnen, moeten ingenieurs eerst testen of eenvoudige iteraties hun huidige ‘Lite’-model in staat stellen de kloof te dichten. Dit is een potentiële strategie om de snelheids- en kostenvoordelen van lichtgewicht infrastructuur te behouden zonder concessies te doen aan de prestaties bij extractie- en ophaaltaken.
Deze logica verschuift op natuurlijke wijze de belasting naar de orkestratielaag. Voor degenen die de middleware en API-gateways beheren die AI-applicaties aan elkaar lijmen, zal snelle iteratie waarschijnlijk een standaard, onzichtbaar onderdeel van pijplijnlogica worden, in plaats van een gebruikersgedrag.
Omdat deze techniek echter neutraal is voor taken die zwaar redeneren, maar zeer effectief is voor directe antwoorden, vereist deze voorwaardelijke toepassing. Intelligente orkestratieharnassen identificeren automatisch verzoeken die zijn gericht op niet-redenerende eindpunten (zoals extractie van entiteiten, classificatie of eenvoudige vraag-en-antwoordsessies) en dupliceren opdrachten voordat ze aan het model worden doorgegeven. Dit optimaliseert de prestaties op infrastructuurniveau en levert betere resultaten zonder actie van eindgebruikers of verhoging van de opwekkingsbudgetten.
Uiteindelijk introduceert deze toegenomen aandacht nieuwe variabelen voor beveiligingsteams.
Als het herhalen van een opdracht de bedoeling van de gebruiker met het model duidelijk maakt, dan ligt het voor de hand dat kwade bedoelingen ook kunnen worden opgehelderd. Beveiligingsdirecteuren moeten hun red team-protocollen bijwerken om ‘herhaalde injectie’-aanvallen te testen – door te verifiëren of het herhalen van jailbreak-opdrachten (bijvoorbeeld ‘Negeer eerdere instructies’) ervoor zorgt dat het model inbreuken effectiever ‘afhandelt’. In plaats daarvan biedt dit mechanisme een nieuw verdedigingsinstrument: het herhalen van systeemopdrachten.
Het tweemaal vermelden van een vangrail aan het begin van een contextvenster kan het model dwingen strenger om te gaan met veiligheidsbeperkingen, waardoor het kan fungeren als een goedkope versterking voor robuuste beveiligingsoperaties.
Waarom dit ertoe doet
Dit onderzoek benadrukt een belangrijk inzicht voor ontwikkelaars die LLM’s bouwen: onze huidige modellen worden nog steeds ernstig beperkt door hun unidirectionele aard. Terwijl we wachten op nieuwe architecturen die causale blindheid kunnen overwinnen, bieden eenvoudige maar effectieve oplossingen zoals snelle iteratie onmiddellijke voordelen. De auteurs beweren dat dit het standaardgedrag voor toekomstige systemen zou kunnen worden.
Mogelijk zien we binnenkort inferentie-engines die stilletjes onze commando’s op de achtergrond dupliceren voordat ze naar het model worden gestuurd, of ‘Reasoning’-modellen die zijn getraind om deze herhalingsstrategie te internaliseren om ze efficiënter te maken. Als u problemen ondervindt bij het bouwen van een model door complexe instructies te volgen of specifieke details uit een lang document op te halen, is dit voorlopig misschien geen betere oplossing. Misschien moet je het nog een keer zeggen.


