Home Nieuws Nous Research’s NousCoder-14B is een open source codeermodel dat precies past bij...

Nous Research’s NousCoder-14B is een open source codeermodel dat precies past bij het Claude Code-moment

17
0
Nous Research’s NousCoder-14B is een open source codeermodel dat precies past bij het Claude Code-moment

Goed onderzoekeen open source kunstmatige intelligentie-startup ondersteund door een crypto-onderneming Paradigmaheeft maandag een nieuw competitief programmeermodel uitgebracht dat naar eigen zeggen overeenkomt met of overtreft enkele van zijn grotere propriëtaire systemen – in slechts vier dagen getraind met behulp van 48 van Nvidia’s nieuwste systemen. B200 grafische processor.

Het model, genaamd NousCoder-14Bis weer een nieuwkomer in het drukke veld van AI-codeerassistenten, maar komt op een heel interessant moment: CodeClaudeagent-programmeertool van rivaliserende Anthropic domineert sinds nieuwjaar de discussies op sociale media, waarbij ontwikkelaars berichten plaatsen buiten adem getuigenissen over zijn capaciteiten. Deze gelijktijdige ontwikkelingen onderstrepen hoe snel de door AI aangedreven softwareontwikkeling vordert – en hoe fel concurrerende grote en kleine bedrijven zijn om vast te leggen wat volgens velen de fundamentele technologie zal zijn bij het schrijven van software.

NousCoder-14B behaalde een nauwkeurigheidspercentage van 67,87 procent LiveCodeBench v6standaardevaluatie waarbij de modellen worden getest op competitieve programmeerproblemen die tussen augustus 2024 en mei 2025 zijn gepubliceerd. Dit cijfer vertegenwoordigt een verbetering van 7,08 procentpunten ten opzichte van het basismodel waarop ze zijn getraind, namelijk Alibaba. Qwen3-14Bvolgens een technisch rapport van Nous Research dat naast de release is gepubliceerd.

“Ik gaf Claude Code een beschrijving van het probleem, het produceerde binnen een uur wat we vorig jaar bouwden,” eigendom vaneen hoofdingenieur bij Google die verantwoordelijk is voor de Gemini API, in een virale post op X vorige week die de algemene sfeer rond AI-coderingstools vastlegde. Dogan beschreef een gedistribueerd agent-orkestratiesysteem dat zijn team een ​​jaar lang had ontwikkeld – een systeem dat Claude Code benaderde vanuit een prompt van drie alinea’s.

De nevenschikking is leerzaam: terwijl antropisch Claude Code spreekt tot de verbeelding Met end-to-end demonstraties van softwareontwikkeling gelooft Nous Research dat open source-alternatieven die zijn getraind op verifieerbare problemen die kloof kunnen dichten – en dat transparantie in de manier waarop deze modellen worden gebouwd net zo belangrijk is als hun ruwe mogelijkheden.


Hoe Nous Research AI-coderingsmodellen bouwt die iedereen kan kopiëren

Wat maakt het anders NousCoder-14B de breuk met veel rivaliserende aankondigingen is de radicale openheid ervan. Nous Research publiceert niet alleen dat modelgewicht maar dat complete versterkende leeromgevingeen benchmarksuite en een trainingssuite – gebouwd op basis van die van het bedrijf Atropos-skelet — maakt het voor elke onderzoeker met voldoende rekenkracht mogelijk het werk reproduceren of uitbreiden.

“Open sourcing van de Atropos-stack biedt de infrastructuur die nodig is voor reproduceerbaar redeneeronderzoek op Olympisch niveau”, zei een waarnemer op Xvat het belang ervan voor de academische en open source-gemeenschappen samen.

Het model is getraind door Joe Leeeen onderzoeker in residentie bij Nous Research en voormalig competitief programmeur. Li’s technisch rapport onthult een onverwachte persoonlijke dimensie: hij vergelijkt de ontwikkeling van het model met zijn eigen reis op Codeforces, een competitief programmeerplatform waar deelnemers ranglijsten verdienen op basis van wedstrijdprestaties.

Op basis van ruwe schattingen die LiveCodeBench-scores koppelen aan Codeforces-ranglijsten, berekende Li dat de verbetering van NousCoder-14B (van de ranglijst van 1600-1750 naar 2100-2200) een sprong weerspiegelde die bijna twee jaar aanhoudende oefening tussen de leeftijd van 14 en 16 jaar vereiste. Dit model bereikte hetzelfde in vier dagen.

“Het was een surrealistische ervaring om de laatste oefening te zien plaatsvinden”, schreef Li in zijn technisch rapport.

Maar Li merkte al snel een belangrijk voorbehoud op dat bredere vragen over AI-efficiëntie beantwoordt: hij loste in die twee jaar ongeveer duizend problemen op, terwijl het model 24.000 problemen op zich nam. Mensen blijven, althans voorlopig, veel efficiëntere leerlingen als het gaat om het gebruik van monsters.


In een versterkend leersysteem dat traint op 24.000 competitieve programmeerproblemen

NousCoder-14BDit trainingsproces biedt inzicht in de steeds geavanceerdere technieken die onderzoekers gebruiken om het redeneervermogen van AI te verbeteren door middel van versterkend leren.

Deze aanpak is gebaseerd op wat onderzoekers ‘verifieerbare beloningen’ noemen – een systeem waarin het model gecodeerde oplossingen genereert, die oplossingen worden uitgevoerd op basis van testgevallen, en het model een eenvoudig binair signaal ontvangt: waar of onwaar. Hoewel deze feedbacklus conceptueel eenvoudig te begrijpen is, vereist dit dat er een aanzienlijke infrastructuur op grote schaal wordt geïmplementeerd.

Er wordt gebruik gemaakt van Nous-onderzoek Hoofdstadcloud computing-platform, om parallelle uitvoering van sandbox-code uit te voeren. Elk van de 24.000 trainingsproblemen bevatte gemiddeld honderden testgevallen, en het systeem moest verifiëren dat de resulterende code de juiste uitvoer produceerde binnen de beperkingen van tijd en geheugen: respectievelijk 15 seconden en 4 gigabyte.

Bij deze training wordt gebruik gemaakt van een techniek genaamd DAPO (optimalisatie van dynamisch bemonsteringsbeleid)waarvan de onderzoekers ontdekten dat ze iets beter presteerden dan andere alternatieven in hun experimenten. De belangrijkste innovatie betreft “dynamische bemonstering” – het weglaten van trainingsvoorbeelden waarvoor het model alle pogingen kan voltooien of alle pogingen kan mislukken, omdat dit geen bruikbaar gradiëntsignaal oplevert voor het leren.

De onderzoekers hebben ook een ‘iteratieve contextuitbreiding’ toegepast, waarbij het model eerst wordt getraind met een contextvenster van 32.000 tokens voordat het wordt uitgebreid naar 40.000 tokens. Tijdens de evaluatie leverde het verder uitbreiden van de context tot ongeveer 80.000 tokens de beste resultaten op, met een nauwkeurigheid van 67,87 procent.

Misschien wel het allerbelangrijkste is dat de trainingspijplijn overlapt met gevolgtrekking en verificatie: zodra het model een oplossing oplevert, begint het aan het volgende probleem te werken terwijl de vorige oplossing wordt gecontroleerd. Deze pipeline, gecombineerd met asynchrone training waarbij meerdere modelinstanties parallel draaien, maximaliseert het hardwaregebruik op dure GPU-clusters.


Een mogelijk gebrek aan gegevens zou de voortgang van AI-coderingsmodellen kunnen vertragen

Begraven bij Li’s huis technisch rapport is een bevinding met aanzienlijke implicaties voor de toekomst van AI-ontwikkeling: de trainingsdataset voor NousCoder-14B omvat “de overgrote meerderheid van alle concurrerende programmeerproblemen die beschikbaar en verifieerbaar zijn in een standaard datasetformaat.”

Met andere woorden: voor dit specifieke domein naderen onderzoekers de grens van hoogwaardige trainingsgegevens.

“Het totale aantal competitieve programmeerproblemen op internet is ongeveer even groot”, schreef Li, verwijzend naar de 24.000 problemen die voor training werden gebruikt. “Dit suggereert dat we in het competitieve programmeerdomein de grens van hoogwaardige data naderen.”

Deze observatie weerspiegelt de groeiende bezorgdheid in de AI-industrie over databeperkingen. Hoewel de computertechnologie zich blijft ontwikkelen volgens goed begrepen economische en technische principes, zijn trainingsgegevens ‘steeds beperkter’, zoals Li het stelt.

“Het lijkt erop dat een deel van het belangrijkste onderzoek dat in de toekomst moet worden gedaan, zich zal afspelen op het gebied van synthetische datageneratie en data-efficiënte algoritmen en architecturen”, concludeerde hij.

De uitdaging is bijzonder acuut voor competitief programmeren, omdat het domein problemen vereist met bekende, automatisch verifieerbare oplossingen. In tegenstelling tot taken in natuurlijke taal waarvoor menselijke evaluatie of proxy-metrieken nodig zijn, werkt code wel of niet, waardoor het genereren van synthetische gegevens veel moeilijker wordt.

Li identificeerde één potentieel pad: trainingsmodellen niet alleen om problemen op te lossen, maar ook om oplosbare problemen te genereren, waardoor een vorm van zelfgestuurd spelen mogelijk wordt gemaakt die vergelijkbaar is met technieken die succesvol zijn gebleken in gaming-AI-systemen. “Toen het synthetische probleem eenmaal was opgelost, werden op zichzelf staande games een zeer interessante richting”, schreef hij.


Een weddenschap van $65 miljoen dat open source AI kan concurreren met Big Tech

Nous Research heeft een bijzondere positie veroverd in het AI-landschap: een bedrijf dat zich daarvoor inzet open source-uitgave die concurreren met – en soms zelfs overtreffen – eigendomsalternatieven.

Het bedrijf nam op $ 50 miljoen in april 2025 in een ronde onder leiding van Paradigm, een op cryptocurrency gericht venture-bedrijf opgericht door mede-oprichter van Coinbase, Fred Ehrsam. Volgens meerdere rapporten bedroeg de totale financiering $ 65 miljoen. Deze investering weerspiegelt de groeiende belangstelling voor gedecentraliseerde benaderingen van AI-training, een veld ontwikkeld door Nous Research Zielplatform.

Eerdere releases bevatten Hermes 4modelfamilie rapporteren wij “presteert beter dan ChatGPT zonder inhoudsbeperkingen,” en DeepHermes-3, die het bedrijf beschrijft als de eerste”actief redeneermodel” — stelt gebruikers in staat om op verzoek uitgebreide denkmogelijkheden te activeren.

Het bedrijf heeft een onderscheidende esthetiek en gemeenschap ontwikkeld, waardoor twijfels rijzen over de vraag of stijl de inhoud kan overschaduwen. “Natuurlijk zal ik geloven in pfp-animebedrijven. stop met het benchmarken van ffs,” schreef een criticus over Xverwijzend naar de anime-stijl branding en industriële praktijken van Nous Research bij het optimaliseren van benchmarkprestaties.

Anderen stelden technische vragen. “Op basis van benchmarks is Nemotron beter“, zei een commentator, verwijzend naar Nvidia’s familie van taalmodellen. Anderen vroegen of NousCoder-14B is “agentgerichte of ‘eenmalige’ codering” – een belangrijk onderscheid in praktische softwareontwikkeling, waarbij herhaalde feedback doorgaans betere resultaten oplevert dan een enkele inspanning.


Wat onderzoekers denken dat er vervolgens moet gebeuren voordat AI-coderingstools zich kunnen blijven ontwikkelen

Deze release bevat verschillende richtingen voor toekomstig werk die aangeven waar het onderzoek naar AI-codering naartoe gaat.

Multi-round versterkingsleren staat bovenaan de lijst. Momenteel ontvangt het model pas een definitieve binaire beloning (geslaagd of mislukt) na het produceren van een oplossing. Maar competitieve programmeerproblemen omvatten meestal openbare testgevallen die tussentijdse feedback geven: compilatiefouten, onjuiste uitvoer, time-outovertredingen. Trainingsmodellen die deze feedback over meerdere inspanningen integreren, kunnen de prestaties aanzienlijk verbeteren.

Het beheersen van de reactieduur blijft ook een uitdaging. De onderzoekers ontdekten dat onjuiste oplossingen vaak langer duurden dan correcte oplossingen, en dat de responslengte tijdens de training snel het beschikbare contextvenster vulde – een patroon dat verschillende algoritmische aanpassingen niet konden oplossen.

Misschien wel het meest ambitieus stelde Li ‘probleemgeneratie en zelfspel’ voor: een trainingsmodel voor het oplossen en creëren van programmeerproblemen. Dit zou het probleem van dataschaarste rechtstreeks aanpakken door het model zijn eigen trainingscurriculum te laten genereren.

“Mensen zijn goed in het genereren van problemen die interessant en nuttig zijn voor andere competitieve programmeurs, maar er lijkt nog steeds een aanzienlijke kloof te bestaan ​​in het vermogen van LLM’s om op creatieve wijze problemen te genereren”, schreef Li.

Het model is Nu verkrijgbaar bij Hugging Face onder de Apache 2.0-licentie. Voor onderzoekers en ontwikkelaars die hun werk willen ontwikkelen heeft Nous Research het integraal gepubliceerd Atropos trainingsstapel naast hem.

Wat Li nodig had voor zijn tienertoewijding was twee jaar – van een beginner op 1600-niveau naar een concurrent op Codeforces op de 2100-ranglijst – een AI die in 96 uur werd gerepliceerd. Hij heeft 1000 problemen nodig. Het model vereist 24.000. Maar in de nabije toekomst zullen deze systemen leren hun eigen problemen te schrijven, zelfstandig te leren en menselijke maatstaven volledig achter zich te laten.

De vraag is niet langer of machines kunnen leren coderen. De vraag is of zij straks betere leraren zullen worden dan wij.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in