Antropisch heeft maandag zijn meest capabele kunstmatige-intelligentiemodel uitgebracht, waardoor de prijs met ongeveer tweederde is verlaagd en tegelijkertijd state-of-the-art prestaties op het gebied van software-engineering worden geclaimd – een strategische zet die de rivaliteit van de AI-startup met diepgewortelde rivalen OpenAI en Google intensiveert.
Nieuw model, Taak sluiten 4.5scoorde hoger op de meest uitdagende interne technische beoordeling van Anthropic dan welke menselijke kandidaat dan ook in de geschiedenis van het bedrijf, volgens materiaal beoordeeld door VentureBeat. Deze resultaten onderstrepen de snelle vooruitgang van de mogelijkheden van AI-systemen en de groeiende vraag hoe deze technologie witteboordenberoepen zal hervormen.
Het door Amazon gesteunde bedrijf prijst de Claude Opus 4.5 Invoertokens van $ 5 per miljoen En Uitvoertokens van $ 25 per miljoen – een drastische verlaging ten opzichte van de tarieven van $ 15 en $ 75 van zijn voorganger, Taak sluiten 4.1eerder dit jaar uitgebracht. Deze stap maakt toonaangevende AI-mogelijkheden toegankelijk voor meer ontwikkelaars en bedrijven, terwijl de concurrentie onder druk wordt gezet om de prestaties en de prijs op elkaar af te stemmen.
“We willen er zeker van zijn dat dit daadwerkelijk werkt voor mensen die met dit model willen werken”, zegt Alex Albert, hoofd ontwikkelaarsrelaties van Anthropic, in een exclusief interview met VentureBeat. “Dat is echt onze focus: hoe kunnen we Claude beter maken in het helpen van dingen die je niet per se wilt doen in je werk?”
De aankondiging komt als Antropische races om hun positie in een steeds drukker wordend veld te behouden. OpenAI is zojuist uitgebracht GPT-5.1 en speciale codeermodellen genoemd CodexMax die lange tijd zelfstandig kan werken. Google wordt gelanceerd Tweeling 3 net vorige week, leidde zelfs tot bezorgdheid bij OpenAI over de voortgang van de zoekgigant, volgens een nieuw rapport van The Information.
Opus 4.5 laat verbeterde scores zien voor taken uit de echte wereld, zeggen ontwikkelaars
Uit interne tests van Anthropic bleek wat het bedrijf beschrijft als een kwalitatieve sprong in het redeneervermogen van Claude Opus 4.5. Dit model behaalde een nauwkeurigheid van 80,9%. Geverifieerde SWE-bankVolgens bedrijfsgegevens presteerde de benchmark, die software-engineeringtaken in de echte wereld meet, beter dan OpenAI’s GPT-5.1-Codex-Max (77,9%), Anthropic’s Sonnet 4.5 (77,2%) en Google’s Gemini 3 Pro (76,2%). Deze resultaten markeren belangrijke vooruitgang ten opzichte van het huidige state-of-the-art model van OpenAI, dat vijf dagen eerder werd uitgebracht.
Maar technische benchmarks vertellen slechts een deel van het verhaal. Albert zei dat testers van medewerkers consequent rapporteerden dat het model een verbeterd beoordelingsvermogen en intuïtie liet zien bij een verscheidenheid aan taken – een verandering die hij beschreef als het model dat inzicht ontwikkelde in wat belangrijk is in de echte wereld.
“Het model is behoorlijk begripvol”, zei Albert. “Het heeft dit soort intuïtie en beoordeling van veel dingen in de echte wereld ontwikkeld, wat kwalitatief gezien aanvoelt als een grote sprong ten opzichte van eerdere modellen.”
Als voorbeeld noemt hij zijn eigen workflow. Eerder zei Albert dat hij een AI-model vroeg om informatie te verzamelen, maar hij aarzelde om de synthese of prioritering ervan te vertrouwen. Met Opus 4.5 delegeert hij completere taken en koppelt hij deze aan Slack en interne documenten om samenhangende samenvattingen te maken die aansluiten bij zijn prioriteiten.
Opus 4.5 presteerde beter dan alle menselijke kandidaten op het zwaarste technische examen van het bedrijf
De prestaties van het model in de interne technische beoordeling van Anthropic vormen een belangrijke mijlpaal. Het take-home-examen, bedoeld voor potentiële kandidaten voor prestatietechniek, is bedoeld om de technische bekwaamheid en het beoordelingsvermogen onder tijdsdruk binnen een voorgeschreven limiet van twee uur te evalueren.
Met behulp van een techniek genaamd parallel test-time computing – die meerdere inspanningen van modellen combineert en het beste resultaat selecteert – Werk 4.5 scoorde volgens het bedrijf hoger dan welke menselijke kandidaat dan ook die de test had afgelegd. Zonder tijdsbeperkingen komt het model overeen met de prestaties van de beste menselijke kandidaten wanneer het wordt gebruikt in Claude Code, de codeeromgeving van Anthropic.
Het bedrijf erkende dat de test geen andere belangrijke professionele vaardigheden meet, zoals samenwerking, communicatie of instincten die zich in de loop van de jaren ontwikkelen. Anthropic zei echter dat deze resultaten “vragen oproepen over hoe AI de techniek als beroep zal veranderen.”
Albert benadrukte het belang van deze bevinding. “Ik denk dat dit waarschijnlijk een teken is van hoe nuttig dit model is in de context van ons werk en ons werk”, zei hij. “Natuurlijk is dit een technische taak, en ik denk dat modellen op technisch gebied relatief geavanceerder zijn dan op andere gebieden, maar ik denk dat dit een heel belangrijk signaal is om op te letten.”
Dramatische efficiëntieverbeteringen verminderen het tokengebruik met maximaal 76% op belangrijke benchmarks
Naast pure prestaties gelooft Anthropic dat verhoogde efficiëntie een onderscheidende factor zal zijn Taak sluiten 4.5 op de markt. Het bedrijf zegt dat het model veel minder tokens gebruikt – teksteenheden die door een AI-systeem worden verwerkt – om vergelijkbare of betere resultaten te bereiken dan zijn voorganger.
Op gemiddelde inspanningsniveaus komt de Opus 4.5 overeen met de vorige Sonnet 4.5 beste score van het model Geverifieerde SWE-bank terwijl er volgens Anthropic 76% minder outputtokens worden gebruikt. Op het hoogste inspanningsniveau presteert Opus 4.5 4,3 procentpunten beter dan Sonnet 4.5, terwijl er nog steeds 48% minder tokens worden gebruikt.
Om ontwikkelaars meer controle te geven, introduceerde Anthropic een ‘inspanningsparameter’ waarmee gebruikers kunnen aanpassen hoeveel computerwerk het model op elke taak toepast – waarbij de prestaties worden afgewogen tegen de latentie en de kosten.
De klanten van het bedrijf zorgen voor de initiële validatie van efficiëntieclaims. “Opus 4.5 verslaat Sonnet 4.5 en de concurrentie op onze interne benchmarks, door minder tokens te gebruiken om hetzelfde probleem op te lossen”, zegt Michele Catasta, president van Replit, een cloudgebaseerd codeerplatform, in een verklaring aan VentureBeat. “Op schaal tellen die efficiëntiewinsten op.”
GitHub’s Chief Product Officer, Mario Rodriguez, zei dat uit vroege tests blijkt dat Opus 4.5 “de interne coderingsbenchmarks overtreft terwijl het tokengebruik met de helft wordt verminderd, en zeer geschikt is voor taken zoals codemigratie en coderefactoring.”
Vroege klanten melden dat AI-agenten leren van ervaringen en hun eigen vaardigheden verfijnen
Een van de meest opvallende mogelijkheden die vroege klanten hebben gedemonstreerd, is wat Anthropic ‘zelfontwikkelende agenten’ noemt: AI-systemen die hun eigen prestaties kunnen verfijnen door middel van iteratief leren.
RakutenJapans e-commerce- en internetbedrijf testte Claude Opus 4.5 op kantoortaakautomatisering. “Onze agenten kunnen hun mogelijkheden onafhankelijk verfijnen – ze bereiken topprestaties in vier iteraties, terwijl andere modellen die kwaliteit na tien iteraties niet kunnen evenaren”, zegt Yusuke Kaji, algemeen directeur van AI voor de activiteiten van Rakuten.
Albert legt uit dat het model zijn eigen gewichten – de basisparameters die het gedrag van AI-systemen bepalen – niet bijwerkt, maar eerder voortdurend de tools en benaderingen verbetert die worden gebruikt om problemen op te lossen. “Het is het steeds opnieuw verfijnen van vaardigheden voor een taak en ervoor zorgen dat ze die vaardigheden proberen te optimaliseren om betere prestaties te krijgen, zodat ze deze taak kunnen voltooien”, zei hij.
De mogelijkheden gaan verder dan coderen. Albert zei dat Anthropic een aanzienlijke toename heeft waargenomen in het maken van professionele documenten, spreadsheets en presentaties. “Ze zeggen dat dit de grootste sprong is die ze ooit tussen modelgeneraties hebben gezien,” zei Albert. “Dus de overstap van de Sonnet 4.5 naar de Opus 4.5 is een grotere sprong dan de vorige twee modellen.”
Basisonderzoekslaboratoriumeen bedrijf voor financiële modellen meldde dat “de nauwkeurigheid van onze interne evaluaties met 20% toenam, de efficiëntie met 15% toenam en dat complexe taken die ooit onbereikbaar leken, haalbaar werden”, aldus medeoprichter Nico Christie.
De nieuwe functie is gericht op Excel-gebruikers en Chrome-workflows en verwijdert de limieten voor de chatlengte
Samen met de modellancering heeft Anthropic een reeks productupdates uitgerold, gericht op zakelijke gebruikers. Claude voor Excel algemeen beschikbaar voor Max-, Teams- en Enterprise-gebruikers met nieuwe ondersteuning voor draaitabellen, grafieken en bestandsuploads. De Chrome-browserextensie is nu beschikbaar voor alle Max-gebruikers.
Misschien wel het allerbelangrijkste: Anthropic introduceert “onbeperkt chatten” – een functie die de beperkingen van contextvensters wegneemt door eerdere delen van gesprekken automatisch samen te vatten naarmate ze langer worden. “Binnen Claude AI, in het product zelf, krijg je feitelijk dit soort oneindige contextvensters vanwege compactie, plus een aantal van de geheugenzaken die we doen”, legt Albert uit.
Voor ontwikkelaars heeft Anthropic “programmatic tool calls” uitgebracht, waarmee Claude code kan schrijven en uitvoeren die functies rechtstreeks aanroept. Claude Code krijgt een bijgewerkte “Plan-modus” en is beschikbaar op desktop in onderzoekspreview, waardoor ontwikkelaars meerdere AI-agentsessies parallel kunnen uitvoeren.
De markt warmt op terwijl OpenAI en Google racen om de prestaties en de prijs op elkaar af te stemmen
Antropisch bereikt 2 miljard dollar aan jaaromzet tijdens het eerste kwartaal van 2025, ruim een verdubbeling ten opzichte van de $1 miljard in de voorgaande periode. Het aantal klanten dat meer dan $100.000 per jaar uitgeeft, is jaar na jaar verachtvoudigd.
Snelle release Werk 4.5 – slechts een paar weken later Haiku 4.5 in oktober en Sonnet 4.5 in september – als weerspiegeling van de bredere sectordynamiek. OpenAI vrijgegeven verschillende varianten van GPT-5 gedurende 2025, inclusief specialisten Codex-model Max in november die maximaal 24 uur zelfstandig kan werken. Google heeft de Gemini 3 medio november uitgebracht na maanden van ontwikkeling.
Albert schreef het versnelde tempo van Anthropic gedeeltelijk toe aan Claude’s gebruik ervan om zijn eigen ontwikkeling te versnellen. “We zagen veel hulp en versnelling door Claude zelf worden uitgevoerd, zowel op het gebied van productontwikkeling als op het gebied van modelonderzoek”, zei hij.
De prijsverlaging voor Opus 4.5 zou de marges kunnen ondermijnen en tegelijkertijd de bereikbare markt kunnen vergroten. “Ik voorspel dat veel startups dit in hun producten zullen gaan opnemen en onder de aandacht zullen brengen”, aldus Albert.
Maar winstgevendheid blijft ongrijpbaar voor toonaangevende AI-laboratoria, omdat ze zwaar investeren in computerinfrastructuur en onderzoekskracht. Dat De AI-markt zal naar verwachting een omzet van $1 biljoen bereiken in tien jaar tijd is geen enkele dienstverlener erin geslaagd een marktpositie te veroveren – ook al hebben modellen de drempel bereikt waarop ze complex kenniswerk kunnen automatiseren.
Michael Truell, CEO van Cursor, een door AI aangedreven code-editor, noemde Opus 4.5 een “significante verbetering ten opzichte van het vorige Claude-model binnen Cursor, met verbeterde prijzen en intelligentie voor moeilijke codeertaken.” Scott Wu, CEO van Cognition, een start-up voor AI-codering, zei dat het model “sterkere resultaten opleverde bij onze moeilijkste evaluaties en consistente prestaties tijdens autonome codeersessies van 30 minuten.”
Voor bedrijven en ontwikkelaars betekent deze concurrentie snel toenemende mogelijkheden, maar tegen een lagere prijs. Maar naarmate AI-prestaties op technische taken het menselijke vaardigheidsniveau naderen (en soms zelfs overschrijden), wordt de impact van de technologie op professioneel werk minder theoretisch.
Toen hem werd gevraagd naar de resultaten van het ingenieursexamen en wat deze aangeven over het traject van AI, antwoordde Albert nadrukkelijk: “Ik denk dat dit een heel belangrijk signaal is om op te letten.”


