Chinese AI- en technologiebedrijven blijven een goede indruk maken met de ontwikkeling van geavanceerde en geavanceerde AI-taalmodellen.
Momenteel is een van de hoogtepunten het Qwen AI-onderzoeksteam van Alibaba Cloud en de lancering van een nieuw eigen taalredeneringsmodel. Qwen3-Max-gedachten.
U herinnert zich misschien nog dat Qwen, zoals VentureBeat vorig jaar meldde, naam heeft gemaakt op de snel veranderende mondiale AI-markt door een verscheidenheid aan krachtige open source-modellen te leveren in verschillende modaliteiten, van tekst tot afbeeldingen tot gesproken audio. Het bedrijf heeft zelfs de steun van de Amerikaanse technologiegigant Airbnb, de CEO en mede-oprichter Brian Chesky zei dat zijn bedrijf vertrouwt op het gratis en open source-model van Qwen als een betaalbaarder alternatief voor Amerikaanse aanbiedingen zoals OpenAI.
Met het gepatenteerde Qwen3-Max-Thinking wil het Qwen-team nu de redeneermogelijkheden van GPT-5.2 en Gemini 3 Pro evenaren en in sommige gevallen zelfs overtreffen door architectonische efficiëntie en agentautonomie.
Deze lancering komt op een cruciaal moment. Laboratoria in het Westen hebben de categorie ‘redeneren’ grotendeels gedefinieerd (vaak ‘Systeem 2′-logica genoemd), maar Qwen’s nieuwste benchmarks laten zien dat de kloof is gedicht.
Bovendien zijn de prijzen van het bedrijf relatief betaalbaar API-prijsstrategie agressief gericht op adoptie door bedrijven. Omdat het echter een Chinees model is, kunnen sommige Amerikaanse bedrijven met strenge nationale veiligheidseisen en -overwegingen aarzelen om dit model over te nemen.
Architectuur: “Testtijdschaling” opnieuw gedefinieerd
De kerninnovatie die Qwen3-Max-Thinking aandrijft, is het afwijken van de standaard inferentiemethoden. Terwijl de meeste modellen tokens lineair genereren, gebruikt Qwen3 een ‘zware modus’, aangedreven door een techniek die bekend staat als ‘Test time scaling’.
Simpel gezegd maakt deze techniek het mogelijk dat modellen berekeningen inruilen voor intelligentie. Maar in tegenstelling tot naïeve ‘best-of-N’-steekproeven – waarbij een model honderd antwoorden kan genereren en de beste kan kiezen – gebruikt Qwen3-Max-Thinking een strategie die uit meerdere rondes bestaat en die cumulatief is van ervaringen.
Deze aanpak bootst het oplossen van menselijke problemen na. Wanneer het model een complexe vraag tegenkomt, gokt het niet alleen maar; het houdt zich bezig met herhaalde zelfreflectie. Het maakt gebruik van een gepatenteerd ‘fetch-ervaring’-mechanisme om inzichten uit eerdere redeneerstappen te destilleren. Hierdoor kan het model:
-
Identificeer doodlopende wegen: Herken wanneer een gedachtegang mislukt zonder deze volledig te omzeilen.
-
Focusberekening: Richt de verwerkingskracht op ‘onopgeloste onzekerheden’ in plaats van terug te grijpen op bekende conclusies.
De toename van de efficiëntie is zeer reëel. Door overmatig redeneren te vermijden, integreert het model een rijkere historische context in hetzelfde venster. Het Qwen-team meldt dat deze methode een enorme prestatiesprong teweegbrengt zonder de tokenkosten te verhogen:
Voorbij puur denken: adaptieve hulpmiddelen
Hoewel ‘denkmodellen’ nuttig zijn, zijn ze historisch gezien in silo’s gebleven: ze zijn geweldig in wiskunde, maar slecht in surfen op het web of het uitvoeren van code. Qwen3-Max-Thinking overbrugt deze kloof door effectief ‘denk- en niet-denkmodi’ te integreren.
Dit model beschikt over adaptieve mogelijkheden voor gereedschapsgebruik, wat betekent dat het autonoom het juiste gereedschap voor de klus kan kiezen zonder dat de gebruiker hier handmatig om vraagt. Het kan naadloos schakelen tussen:
-
Zoeken en extraheren op internet: Voor realtime feitelijke vragen.
-
Geheugen: Om gebruikersspecifieke context op te slaan en te onthouden.
-
Codevertaler: Python-fragmenten schrijven en uitvoeren voor computertaken.
In de “Thinking Mode” ondersteunt het model deze tools tegelijkertijd. Deze mogelijkheid is van cruciaal belang voor bedrijfstoepassingen waarbij een model mogelijk feiten moet verifiëren (Search), projecties moet berekenen (Code Interpreter) en vervolgens strategische implicaties moet overwegen (Think), allemaal in één keer.
Empirisch gezien merkte het team op dat deze combinatie “hallucinaties effectief vermindert”, omdat het model zijn redenering kan baseren op verifieerbare externe gegevens in plaats van alleen op zijn trainingsgewichten te vertrouwen.
Benchmarkanalyse: een dataverhaal
Qwen aarzelt niet om directe vergelijkingen te maken.
Op de HMMT van 25 februari, een strenge redeneerbenchmark, scoorde Qwen3-Max-Thinking 98,0, waarmee hij de Gemini 3 Pro (97,5) versloeg en aanzienlijk beter presteerde dan DeepSeek V3.2 (92,5).
Het belangrijkste signaal voor ontwikkelaars is echter misschien wel Agent Search. Over het ‘Humanities Final Exam’ (HLE) – een benchmark die de prestaties meet op 3000 ‘Google-proof’ vragen op graduate niveau op het gebied van wiskunde, natuurwetenschappen, informatica, geesteswetenschappen en techniek – Qwen3-Max-Thinking, uitgerust met webzoektools, behaalde een score van 49,8 en versloeg Gemini 3 Pro (45,8) en GPT-5.2-Thinking (45,5) .
Dit toont aan dat de Qwen3-Max-Thinking-architectuur bij uitstek geschikt is voor complexe, uit meerdere stappen bestaande agentworkflows waarvoor externe gegevensverzameling vereist is.
Bij codeertaken schittert het model ook. Op Arena-Hard v2 behaalde hij een score van 90,2, waarmee hij concurrenten als Claude-Opus-4.5 (76,7) ver achter zich liet.
Economisch redeneren: prijsdetails
Voor het eerst zien we duidelijk de economische aspecten van Qwens redeneermodel op het hoogste niveau. Alibaba Cloud heeft het gepositioneerd qwen3-max-2026-01-23 als een premium en toch toegankelijk aanbod op de API.
Op basisniveau is hier de Qwen3-Max-Thinking-opstelling:
|
Model |
Invoer (/1M) |
Uitgang (/1M) |
Totale kosten |
Bron |
|
Qwen3 Turbo |
$ 0,05 |
$ 0,20 |
$ 0,25 |
|
|
Grok 4.1 Snel (redenering) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
Grok 4.1 Snel (niet redenerend) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
diepe chat (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
deepseek-reasoner (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
Qwen3 Plus |
$ 0,40 |
$ 1,20 |
$ 1,60 |
|
|
ERNIE 5.0 |
$ 0,85 |
$ 3,40 |
$ 4,25 |
|
|
Gemini 3 Flash-voorbeeld |
$ 0,50 |
$ 3,00 |
$ 3,50 |
|
|
Claude Haiku 4.5 |
$ 1,00 |
$ 5,00 |
$ 6,00 |
|
|
Qwen3-Max-gedachten (23-01-2026) |
$ 1,20 |
$ 6,00 |
$ 7,20 |
|
|
Gemini 3 Pro (≤200K) |
$ 2,00 |
$ 12,00 |
$ 14,00 |
|
|
GPT-5.2 |
$ 1,75 |
$ 14,00 |
$ 15,75 |
|
|
Claude Sonnetten 4.5 |
$ 3,00 |
$ 15,00 |
$ 18,00 |
|
|
Gemini 3 Pro (>200K) |
$ 4,00 |
$ 18,00 |
$ 22,00 |
|
|
Taak sluiten 4.5 |
$ 5,00 |
$ 25,00 |
$ 30,00 |
|
|
GPT-5.2 Pro |
$ 21,00 |
$ 168,00 |
$ 189,00 |
Deze prijsstructuur is agressief, ondermijnt veel oudere vlaggenschipmodellen en biedt tegelijkertijd ultramoderne prestaties.
Ontwikkelaars moeten echter letten op gedetailleerde prijzen voor nieuwe agentmogelijkheden, aangezien Qwen de kosten van ‘denken’ (tokens) scheidt van de kosten van ‘doen’ (toolgebruik).
-
Zoekstrategie voor agenten: Beide zijn standaard
search_strategy:agenten verder vooruitgaansearch_strategy:agent_maxgewaardeerd $ 10 per 1.000 oproepen. -
Zoeken op internet: De prijs is $ 10 per 1.000 oproepen via de Responses API.
Promotionele gratis laag:Om de acceptatie van de meest geavanceerde functies aan te moedigen, biedt Alibaba Cloud momenteel gedurende een beperkte tijd twee belangrijke tools gratis aan:
Dit prijsmodel (lage tokenkosten + à-la-cartetoolprijzen) stelt ontwikkelaars in staat complexe agenten te bouwen die kosteneffectief zijn voor tekstverwerking, terwijl ze alleen een premie betalen wanneer externe acties (zoals live surfen op het web) expliciet worden geactiveerd.
Ontwikkelaar ecosysteem
Zich realiserend dat prestaties nutteloos zijn zonder integratie, heeft Alibaba Cloud ervoor gezorgd dat Qwen3-Max-Thinking klaar is voor gebruik.
-
OpenAI-compatibiliteit: Deze API ondersteunt standaard OpenAI-formaten, waardoor teams eenvoudig van model kunnen wisselen door te veranderen
base_urlEnmodelNaam. -
Antropische compatibiliteit: Als een slimme zet om de codeermarkt te veroveren, ondersteunt de API ook het Anthropic-protocol. Dit maakt Qwen3-Max-Thinking compatibel met CodeClaudepopulaire agentcoderingsomgeving.
Beslissing
Qwen3-Max-Thinking vertegenwoordigt de volwassenheid van de AI-markt in 2026. Dit verschuift het gesprek van ‘wie heeft de slimste chatbot’ naar ‘wie heeft de meest capabele agent’.
Door zeer efficiënt redeneren te combineren met adaptief, autonoom gebruik van tools – en deze goed te prijzen voor gebruik – heeft Qwen zichzelf gevestigd als een van de belangrijkste kandidaten voor de zakelijke AI-troon.
Voor ontwikkelaars en bedrijven suggereert het venster ‘Beperkte vrije tijd’ in Code Interpreter en Web Extractor dat dit het moment is om te experimenteren. De redeneringsoorlog is nog lang niet voorbij, maar Qwen heeft zojuist een zeer krachtige slagman neergezet.

