Home Nieuws OpenAI heeft het GPT-5.1-Codex-Max-coderingsmodel gelanceerd en heeft de 24-uurs taak intern voltooid

OpenAI heeft het GPT-5.1-Codex-Max-coderingsmodel gelanceerd en heeft de 24-uurs taak intern voltooid

27
0
OpenAI heeft het GPT-5.1-Codex-Max-coderingsmodel gelanceerd en heeft de 24-uurs taak intern voltooid

OpenAI heeft introduceert GPT‑5.1-Codex-Maxnieuw grensagent-coderingsmodel nu beschikbaar in de Codex-ontwikkelaarsomgeving. Deze release markeert een belangrijke stap voorwaarts in AI-ondersteunde software-engineering en biedt verbeterde langetermijnredenen, efficiëntie en realtime interactieve mogelijkheden. GPT‑5.1-Codex-Max zal nu GPT‑5.1-Codex vervangen als het standaardmodel op met Codex geïntegreerde oppervlakken.

Het nieuwe model is ontworpen om te functioneren als een persistente softwareontwikkelingsagent met hoge context, die in staat is om complexe refactoring, foutopsporing in de workflow en taken op projectschaal in meerdere contextvensters te beheren.

Dat gebeurde daarna Google brengt een krachtig nieuw Gemini 3 Pro-model uit gisteren, maar presteerde nog steeds beter of evenaarde het op de belangrijkste coderingsbenchmarks:

Op SWE-Bench geverifieerd, GPT‑5.1-Codex-Max behaalde een nauwkeurigheid van 77,9%. met extra hoge redeneerinspanning, waarmee de 76,2% van Gemini 3 Pro wordt overtroffen.

Dat gaat ook door Terminal-Bench 2.0, met een nauwkeurigheid van 58,1% versus Gemini’s 54,2%, en evenaarde Gemini’s score van 2.439 op LiveCodeBench Pro, een competitieve Elo-coderingsbenchmark.

Afgemeten aan de meest geavanceerde configuratie van de Gemini 3 Pro – het Deep Thinking-model – heeft Codex-Max ook een kleine voorsprong in benchmarks voor agentcodering.

Prestatiebenchmarking: stapsgewijze verbeteringen aan belangrijke taken

GPT‑5.1-Codex-Max toont meetbare verbeteringen ten opzichte van GPT‑5.1-Codex in een verscheidenheid aan standaard software-engineeringbenchmarks.

Op SWE-Lancer IC SWE bereikte de nauwkeurigheid 79,9%, een aanzienlijke stijging ten opzichte van GPT‑5.1-Codex, die 66,3% bereikte. In SWE-Bench Verified (n=500) bereikte de nauwkeurigheid 77,9% bij extra hoge redeneerinspanningen, beter dan de 73,7% van GPT‑5.1-Codex.

De prestaties op Terminal Bench 2.0 (n=89) vertoonden meer bescheiden verbeteringen, waarbij GPT-5.1-Codex-Max een nauwkeurigheid van 58,1% behaalde, vergeleken met 52,8% voor GPT-5.1-Codex.

Alle evaluaties werden uitgevoerd met compressie en extra hoge redeneerinspanning ingeschakeld.

Deze resultaten tonen aan dat het nieuwe model een hogere bovengrens biedt voor de gebenchmarkte waarheid en het praktische nut onder uitgebreide redeneerbelastingen.

Technische architectuur: redeneren op lange termijn door middel van verdichting

De belangrijkste architectonische verbetering in GPT-5.1-Codex-Max is het vermogen om effectief na te denken over uitgebreide input-output-sessies met behulp van een mechanisme genaamd verdichting.

Hierdoor kan het model belangrijke contextuele informatie behouden en irrelevante details weggooien naarmate het de grenzen van zijn contextvenster nadert, waardoor continu werken met miljoenen tokens mogelijk wordt zonder prestatieverlies.

Er is intern geobserveerd dat het model taken uitvoert die meer dan 24 uur duren, inclusief refactoring in meerdere stappen, op tests gebaseerde iteratie en autonoom debuggen.

Verdichting verhoogt ook de tokenefficiëntie. Bij redeneerinspanningen op het middenniveau gebruikt GPT-5.1-Codex-Max ongeveer 30% minder gedachte-tokens dan GPT-5.1-Codex om een ​​vergelijkbare of betere nauwkeurigheid te produceren, wat een impact heeft op de kosten en de latentie.

Platformintegratie en gebruiksscenario’s

GPT-5.1-Codex-Max is momenteel beschikbaar in verschillende Codex-gebaseerde omgevingen, wat verwijst naar de geïntegreerde tools en interfaces van OpenAI die speciaal zijn gebouwd voor codegerichte AI-agents. Deze omvatten:

  • CLI-codexOpenAI’s officiële opdrachtregeltool (@openai/codex), waar GPT‑5.1-Codex-Max al actief is.

  • IDE-extensiehoogstwaarschijnlijk ontwikkeld of onderhouden door OpenAI, hoewel er geen specifieke IDE-integraties van derden worden genoemd.

  • Interactieve codeeromgevingzoals die worden gebruikt om frontend-simulatietoepassingen te demonstreren, zoals CartPole of Snell’s Law Explorer.

  • Tool voor interne codebeoordelinggebruikt door het OpenAI-engineeringteam.

Op dit moment is GPT-5.1-Codex-Max nog niet beschikbaar via de openbare API, hoewel OpenAI zegt dat dit binnenkort zal gebeuren. Gebruikers die met modellen in de huidige terminalomgeving willen werken, kunnen dit doen door de Codex CLI te installeren en te gebruiken.

Het is momenteel niet bevestigd of en hoe het model zal worden geïntegreerd in IDE’s van derden, tenzij het bovenop een toekomstige CLI of API wordt gebouwd.

Dit model kan communiceren met tools en live simulaties. Voorbeelden uit de release zijn onder meer:

  • Een interactieve CartPole-beleidsgradiëntsimulator, die training en activering van versterkend leren visualiseert.

  • De optische ontdekkingsreiziger van Snell’s Law ondersteunt dynamische ray tracing over brekingsindices.

Deze interface demonstreert het vermogen van het model om in realtime te denken en tegelijkertijd een interactieve ontwikkelingssessie te onderhouden, waardoor berekeningen, visualisatie en implementatie effectief in één lus worden overbrugd.

Beveiligings- en cyberbeveiligingsobstakels

Hoewel GPT-5.1-Codex-Max niet voldoet aan OpenAI’s ‘hoge’ capaciteitsdrempel voor cyberbeveiliging onder het Preparedness Framework, is het momenteel het meest capabele cyberbeveiligingsmodel dat OpenAI ooit heeft geïmplementeerd. Het ondersteunt gebruiksscenario’s zoals automatische detectie en herstel van kwetsbaarheden, maar waarbij strikte sandboxing en netwerktoegang standaard zijn uitgeschakeld.

OpenAI meldt geen grootschalige toename van kwaadwillig gebruik, maar heeft verbeterde monitoringsystemen geïntroduceerd, waaronder activiteitenroutering en verstoringsmechanismen voor verdacht gedrag. De codex blijft geïsoleerd in de lokale werkruimte tenzij de ontwikkelaar kiest voor bredere toegang, waardoor risico’s zoals snelle injectie van niet-vertrouwde inhoud worden verminderd.

Implementatiecontext en gebruik door ontwikkelaars

GPT‑5.1-Codex-Max is momenteel beschikbaar voor gebruikers van ChatGPT Plus, Pro, Business, Edu en Enterprise plan. Het zal ook de nieuwe standaard zijn in op Codex gebaseerde omgevingen, ter vervanging van GPT-5.1-Codex, een model voor algemenere doeleinden.

OpenAI zegt dat 95% van de interne technici Codex elke week gebruiken, en sinds de introductie ervan hebben deze technici gemiddeld ~70% meer pull-aanvragen ingediend, wat de impact van de tool op de interne ontwikkelingssnelheid benadrukt.

Ondanks zijn autonomie en volharding benadrukt OpenAI dat Codex-Max moet worden behandeld als een codeerassistent en niet als vervanging voor menselijke beoordeling. Dit model genereert terminallogboeken, testfragmenten en uitvoer van tooloproepen om de transparantie in de gegenereerde code te ondersteunen.

Weergave

GPT‑5.1-Codex-Max vertegenwoordigt een significante evolutie in de strategie van OpenAI richting agentontwikkelingstools, die meer diepgang, tokenefficiëntie en interactieve mogelijkheden bieden voor alle software-engineeringtaken. Door de contextbeheer- en compactiestrategieën uit te breiden, is het model gepositioneerd om taken uit te voeren op de schaal van een volledige repository, en niet op individuele bestanden of snapshots.

Met een voortdurende nadruk op agentworkflows, veilige sandboxes en real-world evaluatiestatistieken, legt Codex-Max de basis voor de volgende generatie AI-ondersteunde programmeeromgevingen – terwijl het het belang van toezicht in steeds autonomere systemen onderstreept.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in