Home Nieuws De ‘vibration code’-hack van Andrej Karpathy illustreert stilletjes een ontbrekende laag van...

De ‘vibration code’-hack van Andrej Karpathy illustreert stilletjes een ontbrekende laag van enterprise AI-orkestratie

16
0
De ‘vibration code’-hack van Andrej Karpathy illustreert stilletjes een ontbrekende laag van enterprise AI-orkestratie

Dit weekend, Andrej Karpativoormalig directeur van AI bij Tesla en oprichter van OpenAI, besloot dat hij het boek wilde lezen. Maar hij wilde het niet alleen lezen. Hij wilde het lezen in gezelschap van een commissie van kunstmatige intelligentie, die elk hun eigen perspectief naar voren brachten, de anderen bekritiseerden en uiteindelijk onder leiding van een “voorzitter” een definitief antwoord samenbrachten.

Om dit mogelijk te maken schreef Karpathy wat hij noemde: “trillingscode project” — een stukje software dat snel is geschreven, meestal door een AI-assistent, bedoeld voor de lol in plaats van voor de functie. Hij plaatste de resultaten in een repository met de naam “LLM Raad,” tegen GitHub met een ferme verklaring: “Ik zal het op geen enkele manier ondersteunen… De code is momenteel tijdelijk en de bibliotheek is verouderd.”

Voor technische besluitvormers in de hele ondernemingswereld onthult het verder kijken dan de gebruikelijke disclaimers echter iets dat veel belangrijker is dan alleen maar een weekendspeeltje. In een paar honderd regels Python En JavaScriptKarpathy heeft een referentiearchitectuur geschetst voor de meest kritische en ongedefinieerde laag van de moderne softwarestack: de orkestratie-middleware die zich tussen bedrijfsapplicaties en de vluchtige AI-modelmarkt bevindt.

Terwijl het bedrijf zijn platforminvesteringen voor 2026 voltooit, LLM Raad biedt een eenvoudige weergave van de realiteit van de “build vs. buy” AI-infrastructuur. Hieruit blijkt dat, hoewel de routerings- en aggregatielogica van een AI-model verrassend eenvoudig is, de echte complexiteit ligt in de operationele nauwkeurigheid die nodig is om het model bedrijfsklaar te maken.

Hoe het LLM-bestuur werkt: Vier AI-modellen debatteren, bekritiseren en synthetiseren antwoorden

Voor de toevallige toeschouwer, tenminste LLM Raad de webapp ziet er vrijwel identiek uit aan ChatGPT. Een gebruiker typt een vraag in een chatbox. Maar achter de schermen activeert de app een geavanceerde workflow in drie fasen die weerspiegelt hoe menselijke besluitvormingsorganen werken.

Eerst stuurt het systeem het gebruikersverzoek naar het grensmodelpaneel. In de standaardconfiguratie van Karpathy omvat dit OpenAI GPT-5.1eigendom van Google Tweeling 3.0 ProAntropisch Claude Sonnetten 4.5en xAI Grok 4. Deze modellen genereren parallel de eerste reacties.

In de tweede fase voert de software peer review uit. Elk model kreeg anonieme feedback van de andere modellen en werd gevraagd het te evalueren op basis van nauwkeurigheid en inzicht. Deze stap verandert de AI van een generator in een criticus, waardoor een laag van kwaliteitscontrole wordt opgelegd die zeldzaam is bij standaard chatbot-interacties.

Ten slotte ontvangt een aangewezen ‘LLM-leerstoel’ – momenteel geconfigureerd als Google Gemini 3 – originele vragen, individuele antwoorden en peer-ratings. Het synthetiseert deze verzameling contexten in één enkel antwoord dat gezaghebbend is voor de gebruiker.

Karpathy merkt op dat de resultaten vaak verrassend zijn. “Vaak zijn modellen verrassend bereid om een ​​ander LLM-antwoord te kiezen dat superieur is aan hun eigen antwoord”, schreef hij op X (voorheen Twitter). Hij beschreef het gebruik van de tool om hoofdstukken van boeken te lezen, waarbij hij opmerkte dat het model GPT-5.1 consequent prees als het meest inzichtelijke, terwijl Claude als de laagste werd gerangschikt. De kwalitatieve beoordeling van Karpathy wijkt echter af van die van zijn digitale bord; hij vond GPT-5.1 “te uitgebreid” en gaf de voorkeur aan Gemini’s “gecomprimeerde en verwerkte” uitvoer.

FastAPI, OpenRouter en argumenten om grensmodellen als uitwisselbare componenten te behandelen

Voor CTO’s en platformarchitecten: waarde LLM Raad ligt niet in de literaire kritiek, maar in de constructie ervan. De repository fungeert als het primaire document dat precies laat zien hoe een moderne, minimale AI-stack er eind 2025 uit zal zien.

Deze applicatie is gebouwd op een “dunne” architectuur. De achterkant gebruikt Snelle APImodern Python framework, terwijl de frontend standaard is Reageren applicaties gebouwd met Snel. Gegevensopslag gebeurt niet met een complexe database, maar eenvoudig JSON-bestanden naar de lokale schijf geschreven.

De essentie van de hele operatie is OpenRouterAPI-aggregator die verschillen tussen verschillende modelaanbieders normaliseert. Door verzoeken via deze enkele makelaar te routeren, vermijdt Karpathy het schrijven van afzonderlijke integratiecodes OpenAI, GooglenEn Antropisch. De applicatie weet niet welk bedrijf de informatie levert; het verzendt gewoon een prompt en wacht op een antwoord.

Deze ontwerpkeuze benadrukt een groeiende trend in de bedrijfsarchitectuur: de commoditisering van modellagen. Door frontier-modellen te behandelen als uitwisselbare componenten die kunnen worden uitgewisseld door een enkele regel in het configuratiebestand te bewerken (met name de COUNCIL_MODELS-lijst in de backend-code) beschermt de architectuur applicaties tegen leverancierlock-in. Als het nieuwe model van Meta of Mistral volgende week bovenaan het klassement staat, kan hij binnen enkele seconden aan het bord worden toegevoegd.

Wat ontbreekt er van prototype tot productie: authenticatie, PII-redactie en compliance

Ondertussen is de kernlogica van LLM Raad Elegant, het is ook een levendige illustratie van de kloof tussen ‘weekendhacking’ en productiesystemen. Voor het platformteam van het bedrijf was het klonen van de Karpathy-repository slechts de eerste stap van een marathon.

Een technische audit van de code bracht het verlies aan het licht van de ‘saaie’ infrastructuur die commerciële verkopers tegen een premie verkopen. Het systeem kent geen authenticatie; iedereen met toegang tot de webinterface kan het model opvragen. Er is geen concept van gebruikersrollen, wat betekent dat junior ontwikkelaars dezelfde toegangsrechten hebben als de CIO.

Bovendien ontbreekt er een governancelaag. In een bedrijfsomgeving zou het tegelijkertijd verzenden van gegevens naar vier verschillende externe AI-aanbieders onmiddellijk aanleiding geven tot nalevingsproblemen. Er is hier geen mechanisme om persoonlijk identificeerbare informatie (PII) te bewerken voordat deze het lokale netwerk verlaat, en er zijn ook geen auditlogboeken om bij te houden wie wat heeft gevraagd.

Betrouwbaarheid is een andere open vraag. Het systeem veronderstelt OpenRouter-API is altijd actief en het model zal tijdig reageren. Het mist de stroomonderbrekers, terugvalstrategieën en logica voor opnieuw proberen die bedrijfskritische applicaties draaiende houden wanneer een provider een storing ervaart.

Deze afwezigheid is geen zwakte in de code van Karpathy – hij stelt expliciet dat hij niet van plan is het project te ondersteunen of te verbeteren – maar definieert wel de waardepropositie voor de commerciële AI-infrastructuurmarkt.

Bedrijven vinden het leuk LangChain, AWS-bodemen verschillende AI-gateway-startups verkopen in wezen ‘verharding’ rond de kernlogica die Karpathy demonstreerde. Ze bieden beveiligings-, waarneembaarheids- en compliance-wrappers die onbewerkte orkestratiescripts omzetten in levensvatbare bedrijfsplatforms.

Waarom Karpathy gelooft dat de huidige code ‘vergankelijk’ is en dat traditionele softwarebibliotheken verouderd zijn

Misschien wel het meest provocerende aspect van het project is de filosofie waarop het is gebouwd. Karpathy beschrijft het ontwikkelingsproces als “99% trillingsgecodeerd”, wat impliceert dat hij sterk afhankelijk was van AI-assistenten om code te genereren in plaats van deze zelf regel voor regel te schrijven.

“De code is nu tijdelijk en de bibliotheek is verouderd. Vraag uw LLM om deze naar wens te wijzigen”, schreef hij in de repositorydocumentatie.

Deze verklaring markeert een radicale verschuiving in de mogelijkheden van software-engineering. Traditioneel bouwen bedrijven interne bibliotheken en abstracties om de complexiteit te beheersen en deze door de jaren heen te onderhouden. Karpathy suggereert een toekomst waarin code wordt behandeld als ‘snelle steigers’: wegwerpbaar, gemakkelijk te herschrijven door AI, en niet bedoeld om lang mee te gaan.

Voor zakelijke besluitvormers roept dit lastige strategische vragen op. Als interne tools dat kunnen “trillingscode“Heeft het zin om in het weekend dure, onhandige softwaresuites aan te schaffen voor interne workflows? Of moeten platformteams hun engineers in staat stellen om op maat gemaakte, eenmalige tools te produceren die aan hun behoeften voldoen, tegen een fractie van de kosten?

Wanneer AI-modellen AI beoordelen: de gevaarlijke kloof tussen machinevoorkeuren en menselijke behoeften

Buiten de architectuur, dus LLM Raad het project bracht onbedoeld een specifiek risico bij de toepassing van geautomatiseerde AI aan het licht: het verschil tussen menselijk en machinaal oordeel.

Karpathy’s observatie dat zijn model de voorkeur gaf aan GPT-5.1, terwijl hij de voorkeur gaf aan Gemini, suggereert dat AI-modellen mogelijk dezelfde vooringenomenheid hebben. Ze geven misschien de voorkeur aan breedsprakigheid, specifieke opmaak of retorisch vertrouwen dat niet noodzakelijkerwijs aansluit bij de menselijke bedrijfsbehoeften aan beknoptheid en nauwkeurigheid.

Nu bedrijven steeds meer afhankelijk zijn van “LLM-als-rechter“-systeem voor het evalueren van de kwaliteit van klantgerichte bots, is dit onderscheid belangrijk. Als geautomatiseerde beoordelaars consequent “langdradige en brede” antwoorden belonen terwijl menselijke klanten beknopte oplossingen willen, zullen de statistieken succes laten zien terwijl de klanttevredenheid afneemt. Karpathy’s experimenten laten zien dat het uitsluitend vertrouwen op AI om AI te evalueren een strategie is vol verborgen afstemmingsproblemen.

Wat enterpriseplatformteams kunnen leren van een weekend hacken voordat ze hun 2026-stack bouwen

Eindelijk, LLM Raad fungeert als Rorschach-test voor de AI-industrie. Voor hobbyisten is het lezen van boeken een leuke manier. Voor leveranciers is dit een bedreiging, wat bewijst dat de kernfunctionaliteit van hun product in een paar honderd regels code kan worden gerepliceerd.

Maar voor leiders op het gebied van zakelijke technologie is het een referentiearchitectuur. Dit werpt licht op de orkestratielaag en laat zien dat de technische uitdaging niet ligt in het aansturen van opdrachten, maar in het organiseren van gegevens.

Terwijl het platformteam 2026 tegemoet gaat, zullen veel mensen waarschijnlijk naar de code van Karpathy staren, niet om deze te implementeren, maar om deze te begrijpen. Dit bewijst dat een multi-modellenstrategie technisch gezien niet onmogelijk is. De vraag is of bedrijven hun eigen bestuurslagen zullen bouwen of anderen zullen betalen om de ‘vibratiecode’ te verpakken in bedrijfszekerheden.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in