Tijdens het weekend heeft Andrej Karpathy – de invloedrijke voormalige Tesla AI-leider en mede-oprichter en voormalig OpenAI-lid die de term ‘vibe coding’ bedacht – geplaatst op X over zijn nieuwe open source-project, automatisch onderzoek.
Het was geen kant-en-klaar model of het product van een groot bedrijf: naar eigen zeggen was het een eenvoudig script van 630 regels. beschikbaar op Github onder de tolerante en ondernemingsvriendelijke MIT-licentie. Maar de ambities zijn enorm: het automatiseren van wetenschappelijke methoden met AI-agenten terwijl mensen slapen.
“Het doel is om je agenten zo te ontwikkelen dat ze de snelste onderzoeksvoortgang boeken, zonder tijdslimieten en zonder je eigen tussenkomst”, zei hij in X.
Het systeem functioneert als een autonome optimalisatielus. De AI-agent krijgt een trainingsscript en een vast rekenbudget (meestal 5 minuten op de GPU).
Het leest zijn eigen broncode, vormt hypothesen voor verbeteringen (zoals het veranderen van het leertempo of de architectonische diepgang), past de code aan, voert experimenten uit en evalueert de resultaten.
Als validatieverlies: gemeten in bits per byte (val_bpb) – verandering vergroten, ondersteunen; zo niet, dan komt hij terug en probeert het opnieuw. In de in één nacht voltooide agent Karpathy 126 experimentenverminderde het verlies van 0,9979 naar 0,9697.
Vandaag meldde Karpathy dat nadat hij het bureau had verlaten om het “diepte=12”-model twee dagen lang af te stemmen, het model erin slaagde ongeveer 700 autonome wijzigingen verwerken.
Het bureau vond ongeveer twintig additieve verbeteringen die perfect overgingen op het grotere model. Toen deze veranderingen werden gecombineerd, werd de ‘Time to GPT-2’-statistiek op het scorebord teruggebracht van 2,02 uur naar 1,80 uur – een efficiëntieverbetering van 11% op een project dat volgens Karpathy goed was afgestemd.
“Het was geweldig om een agent deze hele workflow end-to-end en in zijn eentje te zien doen,” zei Karpathy, waarbij hij opmerkte dat de agent een vergissing in de aandachtschaling en regularisatie herkende die hij handmatig had gemist gedurende twintig jaar werk.
Dit is meer dan alleen een productiviteitshack; dit is een fundamentele verandering in de manier waarop intelligentie wordt geperfectioneerd. Door de ‘wetenschappelijke methode’ van coderen te automatiseren, heeft Karpathy machinaal leren veranderd in een evolutionair proces dat verloopt met de snelheid van silicium, niet met de snelheid van het menselijk denken.
En meer nog: het laat de bredere AI- en machine learning-gemeenschap bij X zien dat dit soort processen veel verder dan de informatica kan worden toegepast, op gebieden als marketing, gezondheid en eigenlijk alles waarvoor onderzoek nodig is.
Geautomatiseerd onderzoek verspreidde zich wijd en zijd
De reactie was snel en viraal, waarbij Karpathy’s bericht in twee dagen tijd meer dan 8,6 miljoen keer werd bekeken terwijl bouwers en onderzoekers zich haastten om de “Karpathy-cirkel” te verbeteren.
Varun Mathur, CEO van AI-tools-aggregatorplatform Hyperspace AI, neemt een enkele agentlus en distribueert deze over een peer-to-peer-netwerk. Elk knooppunt waarop de Hyperspace-agent draait, wordt een autonome onderzoeker.
In de nacht van 8 op 9 maart voerden 35 autonome agenten op het Hyperspace-netwerk 333 experimenten uit, volledig zonder toezicht. Het resultaat is een masterclass in opkomende strategie:
-
Hardwarediversiteit als kenmerk: Mathur merkt op dat terwijl de GPU van de H100 “brute force” gebruikt om agressieve leersnelheden te vinden, de speciale agenten van de CPU in de laptop gedwongen worden slim te zijn. Deze ‘underdog’-agenten richten zich op initialisatiestrategieën (zoals Kaiming en Xavier init) en normalisatie-opties, omdat ze niet kunnen vertrouwen op ruwe doorvoer.
-
Op roddels gebaseerde ontdekking: Met behulp van het GossipSub-protocol delen agenten hun winsten in realtime. Toen een agent ontdekte dat Kaiming-initialisatie de verliezen met 21% verminderde, verspreidde het idee zich als een digitaal virus door het netwerk. Binnen enkele uren hadden 23 andere instanties de ontdekking in hun hypothesen verwerkt.
-
Historische compressie: In slechts 17 uur hebben deze agenten zelfstandig ML-prestaties opnieuw uitgevonden, zoals RMSNorm en begrensde inbedding, waarvoor menselijke onderzoekers in laboratoria als Google Brain en OpenAI bijna acht jaar nodig hadden om te formaliseren.
Voer elk jaar 36.500 marketingexperimenten uit, geen 30 experimenten
Terwijl ML-liefhebbers zich concentreren op verliescurves, maakt de zakenwereld een andere revolutie mee. Eric Siu, oprichter van reclamebureau Single Graingeautomatiseerd onderzoek toepassen op de marketing ‘Experiment Loop’.
“De meeste marketingteams voeren zo’n dertig experimenten per jaar uit”, schreef Siu in X. “De volgende generatie zal er meer dan 36.500 uitvoeren. Gemakkelijk.” Hij vervolgde:
“Ze voeren experimenten uit terwijl ze slapen. De huidige marketingteams voeren 20 tot 30 experimenten per jaar uit. Misschien 52 als ze ‘goed’ zijn. Nieuwe landingspagina’s. Nieuw advertentiemateriaal. Misschien onderwerpregeltesten. Dat wordt beschouwd als ‘datagedreven marketing’. Maar de volgende generatie marketingsystemen zal meer dan 36.500 experimenten per jaar uitvoeren.”
Het raamwerk van Siu vervangt trainingsscripts door marketingmateriaal: landingspagina’s, advertentiemateriaal of koude e-mails. De agent wijzigt de variabele (onderwerpregel of CTA), past deze toe, meet het ‘positieve antwoordpercentage’ en slaat deze op of gooit deze weg.
Siu stelt dat hierdoor een ‘exclusieve kaart’ ontstaat van wat een bepaald publiek leuk vindt – een gracht die niet is opgebouwd uit code, maar uit een geschiedenis van experimenten. “Bedrijven die winnen zullen geen betere marketeers hebben,” schreef hij, “ze zullen snellere experimenteerrondes hebben.”
Gemeenschapsdiscussie en ‘knoeien’ met validatiesets
Hoewel vol enthousiasme, welteverstaan GitHub-discussies onthult een gemeenschap die worstelt met de gevolgen van zulke snelle en geautomatiseerde vooruitgang.
De valkuil van overoptimalisatie: Onderzoeker alexistisch uitte een scherpe bezorgdheid: “Ben je niet bang dat het lanceren van veel experimenten uiteindelijk de validatieset zal ‘corrumperen’?”. De angst is dat met voldoende middelen de parameters zullen worden geoptimaliseerd voor de specifieke eigenaardigheden van de testgegevens, en niet voor algemene intelligentie.
Betekenis van winst: Gebruiker Samionb vroeg zich af of de daling van 0,9979 naar 0,9697 werkelijk reëel was. Het antwoord van Karpathy was direct: “Het enige wat we deden was de prestaties per computer optimaliseren… dit is een reëel en substantieel voordeel”
Menselijk element: In X, gebruiker heksHoofd Groei bij een cryptoplatform Yari Financiëndocumenteerden hun nachtelijke experimenten op een Mac Mini M4, waarbij ze opmerkten dat hoewel 26 van de 35 pogingen mislukten of vastliepen, zeven succesvolle pogingen aan het licht brachten dat “het model beter wordt door eenvoudiger te zijn”.
Dit begrip – waarvan minder vaak meer is – kan worden bereikt zonder menselijke tussenkomst.
De toekomst: nieuwsgierigheid als obstakel
De lancering van auto-onderzoek wijst op een toekomst van onderzoek in domeinen waar, dankzij eenvoudige AI-instructiemechanismen, de rol van mensen verschuift van ‘experimentator’ naar ‘experimenteel ontwerper’.
Toen tools als DarkMatter, Optimization Arena en NanoClaw opkwamen om deze hordes te ondersteunen, was het knelpunt voor de voortgang van AI niet langer het vermogen van ‘vleescomputers’ (Karpathy’s beschrijving van het menselijk brein) om te coderen – het was ons vermogen om zoekgrenzen te definiëren.
Andrej Karpathy heeft opnieuw de stemming veranderd. We coderen niet langer alleen het model; we zaaien een ecosysteem dat leert terwijl we slapen.



