Alibaba laat Qwen3.5 vallen eerder deze week viel het samen met Chinees Nieuwjaar, en de belangrijkste cijfers alleen al waren genoeg om zakelijke AI-kopers te laten stoppen en kennis te nemen.
Het nieuwe vlaggenschipmodel met open gewicht – Qwen3.5-397B-A17B – bevat in totaal 397 miljard parameters, maar activeert er slechts 17 miljard per token. Ze beweren dat de benchmark wint Alibaba’s vorige vlaggenschip, Qwen3-Maxhet eigen erkende model van het bedrijf overschrijdt een biljoen parameters.
Deze lancering markeert een keerpunt in AI-inkoop op ondernemingsniveau. Voor IT-leiders die de AI-infrastructuur in 2026 evalueren, presenteert Qwen 3.5 een ander argument: dat modellen die je daadwerkelijk kunt uitvoeren, bezitten en controleren, nu klappen kunnen uitdelen met modellen die je moet huren.
Een nieuwe architectuur gebouwd voor snelheid op schaal
Het verhaal van de techniek onder Qwen3.5 begint met zijn voorloper. Het model is een directe opvolger van het experimentele Qwen3-Next van afgelopen september, een zeer zeldzaam MoE-model waarvan een preview was bekeken, maar algemeen als half-getraind werd beschouwd. Qwen3.5 neemt die architecturale richting en schaalt deze agressief op, van 128 experts op het vorige Qwen3 MoE-model naar 512 experts op de nieuwe release.
De praktische implicatie van dit en betere aandachtsmechanismen is een veel lagere latentie van gevolgtrekkingen. Omdat slechts 17 miljard van die 397 miljard parameters actief zijn voor een bepaalde voorwaartse doorgang, lijkt de computationele voetafdruk veel meer op het dichte 17B-model dan op het 400B-model – terwijl het model de hele pool van experts kan gebruiken voor gespecialiseerd redeneren.
Deze snelheidsverhoging is enorm. Bij een contextlengte van 256K decodeert de Qwen 3.5 19 keer sneller dan de Qwen3-Max en 7,2 keer sneller dan het 235B-A22B Qwen 3-model.
Alibaba beweert ook dat het model 60% goedkoper in gebruik is dan zijn voorganger en acht keer beter in staat is om grote gelijktijdige werklasten aan te kunnen, cijfers die veel betekenen voor elk team met het oog op de gevolgtrekkingswet. Het gaat ook om 1/18 kost Google Gemini 3 Pro.
Twee andere architectonische beslissingen dragen bij aan deze voordelen:
-
Qwen3.5 maakt gebruik van multi-token-voorspellingen – een aanpak die is ontwikkeld in verschillende gepatenteerde modellen – die de convergentie vóór de training versnelt en de resultaten verbetert.
-
Dat is ook zo erft het aandachtssysteem van Qwen3-Volgende vorig jaar uitgebracht, is specifiek ontworpen om de geheugendruk op zeer lange contexten te verminderen.
Het resultaat is een model dat comfortabel kan werken binnen een contextvenster van 256K op de open-weight-versie, en tot 1 miljoen tokens op de Qwen3.5-Plus-variant gehost op Alibaba Cloud Model Studio.
Origineel multimodaal, niet vastgeschroefd
Alibaba hanteerde jarenlang de standaardaanpak in de sector: bouw een taalmodel en sluit vervolgens een vision-encoder aan om een afzonderlijke VL-variant te creëren. Qwen3.5 negeert dat patroon volledig. Het model wordt vanaf het begin getraind met behulp van tekst, afbeeldingen en video tegelijkertijd, wat betekent dat visuele redenering is verweven in de kernrepresentatie van het model, in plaats van erop te worden geënt.
Dit is in de praktijk belangrijk. Native multimodale modellen presteren doorgaans beter dan op adapters gebaseerde modellen bij taken die een rigoureuze tekst-beeld-redenering vereisen, bijvoorbeeld het analyseren van technische diagrammen samen met hun documentatie, het verwerken van UI-screenshots voor agenttaken of het extraheren van gestructureerde gegevens uit complexe visuele lay-outs. Op MathVista scoorde het model 90,3; op MMMU, 85.0. Het blijft achter bij Gemini 3 in sommige visiespecifieke benchmarks, maar presteert beter dan Claude Opus 4.5 bij multimodale taken en levert concurrerende cijfers op ten opzichte van GPT-5.2, allemaal met een lager aantal parameters.
Door de prestaties van Qwen3.5 te vergelijken met grotere bedrijfseigen modellen, zijn dit de cijfers die zakelijke gesprekken zullen stimuleren.
Op basis van de gepubliceerde evaluaties van Alibaba presteert het 397B-A17B-model beter dan de Qwen3-Max – een model met meer dan een biljoen parameters – in een verscheidenheid aan redeneer- en codeertaken.
Het claimt ook concurrerende resultaten ten opzichte van GPT-5.2, Claude Opus 4.5 en Gemini 3 Pro op het gebied van algemene redeneer- en codeerbenchmarks.
Taaldekking en tokenizer-efficiëntie
Een ondergewaardeerd detail in de Qwen3.5-release is het uitgebreide meertalige bereik. De woordenschat van het model is gegroeid tot 250.000 tokens, vergeleken met 150.000 in de vorige generatie Qwen en nu vergelijkbaar met de ~256.000 tokenizer van Google. De taalondersteuning is toegenomen van 119 talen in Qwen 3 naar 201 talen en dialecten.
Tokenizer-upgrades hebben directe kostenimplicaties voor de wereldwijde implementatie. Grotere vocabulaires coderen niet-Latijnse schriften (Arabisch, Thais, Koreaans, Japans, Hindi en andere) efficiënter, waardoor het aantal tokens met 15 tot 40% wordt verminderd, afhankelijk van de taal. Voor IT-organisaties die AI op grote schaal gebruiken voor meertalige gebruikersbestanden is dit niets academisch. Dit betekent lagere inferentiekosten en snellere responstijden.
Agentische mogelijkheden en OpenClaw-integratie
Alibaba positioneert Qwen3.5 expliciet als een agentmodel – een model dat niet alleen is ontworpen om op vragen te reageren, maar ook om autonome acties in meerdere stappen te ondernemen namens gebruikers en systemen. Het bedrijf beschikt over open source Qwen Code, een opdrachtregelinterface waarmee ontwikkelaars complexe codeertaken kunnen delegeren aan modellen in natuurlijke taal, ongeveer vergelijkbaar met Claude Code van Anthropic.
De release benadrukt ook de compatibiliteit met OpenClaw, een opensource-agentframework dat dit jaar in de adoptie door ontwikkelaars enorm is toegenomen. Met 15.000 verschillende versterkende leertrainingsomgevingen die worden gebruikt om de redenering en taakuitvoering van het model aan te scherpen, heeft het Qwen-team bewust ingezet op RL-gebaseerde training om de praktische agentprestaties te verbeteren – een trend die consistent is met wat MiniMax demonstreerde met de M2.5.
De door Qwen3.5-Plus gehoste variant maakt ook adaptieve inferentiemodi mogelijk: snelle modus voor latentiegevoelige toepassingen, denkmodus die uitgebreide gedachtegangsredenering voor complexe taken mogelijk maakt, en automatische (adaptieve) modus die dynamisch selecteert. Een dergelijke flexibiliteit is belangrijk voor bedrijfsimplementaties waarbij hetzelfde model mogelijk realtime klantinteracties en diepgaande analytische workflows moet ondersteunen.
Implementatierealiteit: wat IT-teams echt moeten weten
Het intern uitvoeren van Qwen3.5 open gewichten vereist serieuze hardware. Terwijl de gekwantiseerde versie ongeveer 256 GB RAM nodig heeft, en realistisch gezien 512 GB voor comfortabele hoofdruimte. Dit is geen model voor eenvoudige lokale werkstations of servers. Zeer geschikt hiervoor zijn GPU-nodes: een configuratie die veel bedrijven al gebruiken voor inferentie-workloads, en die nu een aantrekkelijk alternatief biedt voor API-afhankelijke implementaties.
Alle Qwen 3.5 openweight-modellen worden uitgebracht onder de Apache 2.0-licentie. Dit is een aanzienlijk verschil met modellen met speciale of beperkte licenties: Apache 2.0 staat royalty-vrij commercieel gebruik, wijziging en herdistributie toe, zonder noemenswaardige verplichtingen. Voor juridische teams en inkoopteams die open modellen evalueren, zal een zuiver licentiebeleid het discussieproces vereenvoudigen.
Wat er daarna gebeurde
Alibaba heeft bevestigd dat dit de eerste release in de Qwen3.5-familie is, en geen volledige lancering. Op basis van patronen uit Qwen3 – die modellen bevat met maximaal 600 miljoen parameters – verwacht de industrie dat kleinere vaste destillaatmodellen en aanvullende MoE-configuraties de komende weken en maanden zullen volgen. Het Qwen3-Next 80B-model van afgelopen september werd algemeen beschouwd als ondergetraind, wat suggereert dat er in de nabije toekomst waarschijnlijk een 3,5-variant op die schaal zal worden uitgebracht.
Voor beslissers in de IT-sector is de richting duidelijk. Alibaba heeft laten zien dat zijn open front-endmodel niet langer een compromis is. Qwen3.5 is een systeemeigen inkoopoptie voor teams die front-end redenering, systeemeigen multimodale mogelijkheden en een contextvenster van 1 miljoen tokens willen, zonder dat er eigen API’s worden vastgelegd. De volgende vraag is niet of deze modellenreeks capabel genoeg is. Wat bepaalt of uw infrastructuur en team er klaar voor zijn om hiervan te profiteren.
Qwen 3.5 wel Nu verkrijgbaar bij Hugging Face onder model-ID Qwen/Qwen3.5-397B-A17B. De gehoste Qwen3.5-Plus-variant is beschikbaar via Alibaba Cloud Model Studio. Qwen Chat aan chat.qwen.ai biedt gratis openbare toegang tot evaluatie.


