In de loop van de weken hebben steeds meer AI-ontwikkelaars en gebruikers beweerd dat het vlaggenschipmodel van Anthropic zijn voorsprong verliest. Gebruikers op GitHub, X en Reddit hebben dit gemeld een fenomeen dat zij omschrijven als “AI-krimp”– Een gevoel van degradatie waarbij Claude minder goed in staat lijkt zijn redenering vol te houden, meer vatbaar is voor hallucinaties en steeds verspillender lijkt in zijn gebruik van tokens.
Critici wijzen op een meetbare gedragsverandering en beweren dat het model is verschoven van een ‘onderzoek eerst’-benadering naar een luiere,’ eerst bewerken’-stijl die niet langer kan worden vertrouwd voor complexe engineering.
Hoewel het bedrijf aanvankelijk de beweringen over het “nerfen” van het model om de vraag te beheersen verwierp, zorgde het toenemende bewijsmateriaal van spraakmakende gebruikers en benchmarks van derden voor een aanzienlijke vertrouwenskloof.
Vandaag, Anthropic pakt dit probleem direct aanpubliceerde een technisch post-mortem waarin drie afzonderlijke productlaagveranderingen werden geïdentificeerd die verantwoordelijk waren voor de gerapporteerde kwaliteitsproblemen.
“We nemen meldingen van degradatie zeer serieus”, aldus het rapport Antropische blogpost over dit onderwerp. “We verslechteren onze modellen nooit opzettelijk en we kunnen onmiddellijk bevestigen dat onze API’s en inferentielagen niet worden beïnvloed.”
Anthropic beweert het probleem te hebben opgelost door de wijzigingen in de commando’s voor redeneren en breedsprakigheid terug te draaien, en tegelijkertijd een caching-bug in versie v2.1.116 te repareren.
Er zijn steeds meer aanwijzingen voor degradatie
De controverse kwam begin april 2026 in een stroomversnelling, aangewakkerd door gedetailleerde technische analyses van de ontwikkelaarsgemeenschap. Stella Laurenzo, senior directeur van de AI-groep van AMD, publiceerde een grondige audit van 6.852 Claude Code-sessiebestanden en meer dan 234.000 tool-oproepen op Github toont verminderde prestaties ten opzichte van eerder gebruik.
Zijn bevindingen toonden aan dat Claude’s diepgang van redeneren sterk was afgenomen, wat leidde tot lussen in de redenering en de neiging om de “eenvoudigste oplossing” te verkiezen boven de juiste.
Deze anekdotische frustratie lijkt te worden gevalideerd door benchmarks van derden. BridgeMind meldt dat de nauwkeurigheid van Claude Opus 4.6 tijdens hun tests is gedaald van 83,3% naar 68,3%, waardoor de ranking is gedaald van nummer 2 naar nummer 10.
Hoewel sommige onderzoekers beweerden dat deze specifieke benchmarkvergelijkingen gebrekkig waren vanwege de inconsistente testdekking, werd het verhaal dat Claude “dommer” was geworden een viraal gespreksonderwerp. Gebruikers meldden ook dat de gebruikslimieten sneller leegliepen dan verwacht, waardoor het vermoeden ontstond dat Anthropic opzettelijk de prestaties beperkte om de sterke stijging van de vraag op te vangen.
De oorzaak
In zijn post-meer moeraspost verduidelijkte Anthropic dat, hoewel het gewicht van het onderliggende model niet was teruggevallen, drie specifieke veranderingen aan het “harnas” rond het model onbedoeld de prestaties ervan hadden belemmerd:
-
Standaard redeneerpoging: Op 4 maart veranderde Anthropic zijn standaardredeneringspoging van
highnaarmediumvoor Claude Code om problemen met de latentie van de gebruikersinterface op te lossen. Deze verandering was bedoeld om te voorkomen dat de interface leek te ‘bevriezen’ terwijl het model aan het nadenken was, maar het resulteerde in een merkbare vermindering van de intelligentie voor complexe taken. -
Caching-logische bug: Een caching-optimalisatie, bedoeld om lange “gedachten” uit inactieve sessies te verwijderen, wordt op 26 maart verzonden en bevat een kritieke bug. In plaats van de gedachtegeschiedenis één keer na een uur inactiviteit te verwijderen, wordt deze bij elke volgende gelegenheid verwijderd, waardoor het model zijn ‘kortetermijngeheugen’ verliest en repetitief of vergeetachtig wordt.
-
Limiet voor breedsprakigheid van systeemopdrachten: Op 16 april voegde Anthropic instructies toe aan het promptsysteem om de tekst tussen tooloproepen onder de 25 woorden en de uiteindelijke antwoorden onder de 100 woorden te houden. Een poging om de breedsprakigheid in Opus 4.7 te verminderen, mislukte, waardoor de evaluaties van de codeerkwaliteit met 3% afnamen.
Impact en toekomstige beschermingsinspanningen
Kwaliteitskwesties gaan verder dan CLI Code Claude en zijn van invloed Agent Claude SDK En Claude collegahoewel ClaudeAPI niet beïnvloed.
Anthropic gaf toe dat deze verandering ervoor zorgde dat het model ‘minder intelligentie’ leek te hebben, wat volgens hen niet de ervaring was die gebruikers verwachtten.
Om het vertrouwen van de gebruiker te herwinnen en toekomstige tegenslagen te voorkomen, heeft Anthropic verschillende operationele wijzigingen doorgevoerd:
-
Intern hondenvoer: Van het meeste interne personeel zal worden verlangd dat zij een openbaar gemaakte Claude Code gebruiken om ervoor te zorgen dat zij het product ervaren zoals gebruikers dat doen.
-
Verbeterde evaluatiesuite: Het bedrijf zal nu een bredere reeks evaluaties en ‘ablaties’ per model uitvoeren voor elke snelle systeemwijziging om de impact van specifieke instructies te isoleren.
-
Strakkere controles: Er zijn nieuwe tools ontwikkeld om het gemakkelijker te maken om snelle wijzigingen te controleren, en modelspecifieke wijzigingen zullen worden afgestemd op de verwachte doelstellingen.
-
Klantcompensatie: Om rekening te houden met de tokenverspilling en prestatieverstoringen die door deze bug worden veroorzaakt, heeft Anthropic vanaf 23 april de gebruikslimieten voor alle klanten opnieuw ingesteld.
Het bedrijf is van plan de nieuwe te gebruiken @ClaudeDevs-account op X en GitHub-threads om een diepere redenering te bieden achter toekomstige productbeslissingen en een transparantere dialoog te onderhouden met de ontwikkelaarsbasis.



