Home Nieuws Alibaba’s nieuwe open source Qwen3.5-Medium-model biedt Sonnet 4.5-prestaties op lokale computers

Alibaba’s nieuwe open source Qwen3.5-Medium-model biedt Sonnet 4.5-prestaties op lokale computers

3
0
Alibaba’s nieuwe open source Qwen3.5-Medium-model biedt Sonnet 4.5-prestaties op lokale computers

Alibaba’s inmiddels beroemde Qwen AI-ontwikkelingsteam heeft het opnieuw gedaan: iets meer dan een dag geleden hebben ze het uitgebracht Qwen3.5 middelgrote modelserie bestaat uit vier nieuwe grote taalmodellen (LLM’s) met ondersteuning voor het aanroepen van agenttools, waarvan er drie beschikbaar zijn voor commercieel gebruik door ondernemingen en indie-ontwikkelaars onder de standaard Apache 2.0 open source-licentie:

  • Qwen3.5-35B-A3B

  • Qwen3.5-122B-A10B

  • Qwen3.5-27B

Ontwikkelaars kunnen het nu downloaden Knuffelend gezicht En Modelomvang. Het vierde model, de Qwen3.5-Flash, lijkt eigendom te zijn en is alleen verkrijgbaar via Alibaba Cloud Model Studio-APImaar het biedt nog steeds een groot voordeel in termen van kosten ten opzichte van andere modellen in het Westen (zie prijsvergelijkingstabel hieronder).

Maar het grote verschil met open source-modellen is dat ze vergelijkbare hoge prestaties bieden op benchmarktests van derden als eigen modellen van vergelijkbare grootte van grote Amerikaanse startups zoals OpenAI of Anthropic, die feitelijk beter zijn dan OpenAI’s GPT-5-mini en Anthropic’s Claude Sonnet 4.5 – het laatste model ooit. het werd pas vijf maanden geleden uitgebracht.

En het Qwen-team inspraak ze hebben deze modellen zo ontworpen dat ze zeer nauwkeurig blijven, zelfs als ze ‘gekwantiseerd’ zijn, een proces dat hun voetafdruk verder verkleint door de hoeveelheid opgeslagen modelinstellingen terug te brengen van veel waarden naar veel minder.

Het allerbelangrijkste is dat deze release contextvensters op frontniveau naar desktop-pc’s brengt. Het vlaggenschip Qwen3.5-35B-A3B kan nu meer dan 1 miljoen token-contextlengtes overschrijden op GPU’s van consumentenkwaliteit met 32 ​​GB VRAM. Hoewel dit niet iets is dat voor iedereen toegankelijk is, kost dit veel minder dan andere opties met vergelijkbare prestaties.

Deze sprong wordt mogelijk gemaakt door vrijwel verliesloze nauwkeurigheid in 4-bits gewichten en KV-cachekwantisering, waardoor ontwikkelaars grote datasets kunnen verwerken zonder infrastructuur op serverniveau.

Technologie: Delta Power

De kern van de prestaties van Qwen 3.5 wordt gevormd door een geavanceerde hybride architectuur. Hoewel veel modellen uitsluitend afhankelijk zijn van standaard Transformer-blokken, integreert Qwen 3.5 Gated Delta Networks in combinatie met een schaars Mixture-of-Experts (MoE)-systeem. Technische specificaties voor de Qwen3.5-35B-A3B demonstreren een zeer efficiënt ontwerp:

  • Parameterefficiëntie: Hoewel het model in totaal 35 miljard parameters bevat, is het model alleen actief 3 miljard voor welk teken dan ook.

  • Deskundige diversiteit: De MoE-laag maakt gebruik van 256 experts, waarvan 8 gerichte experts en 1 gedeelde expert die helpen de prestaties op peil te houden en de inferentielatentie te verminderen.

  • Bijna verliesloze kwantisering: De serie behoudt een hoge nauwkeurigheid, zelfs wanneer deze wordt gecomprimeerd tot 4-bits gewichten, waardoor de geheugenvoetafdruk voor lokale implementaties aanzienlijk wordt verminderd.

  • Basismodelvrijgave: In een poging de onderzoeksgemeenschap te ondersteunen heeft Alibaba source geopend Qwen3.5-35B-A3B-basis model naast de versie aangepast aan de instructies.

Product: Intelligentie die eerst ‘denkt’

Qwen 3.5 introduceerde de native “Thinking Mode” als standaardstatus. Voordat het een definitief antwoord geeft, genereert het model een interne redenering, begrensd door tags – om door complexe logica te werken. Het productassortiment is afgestemd op verschillende hardwareomgevingen:

  • Qwen3.5-27B: Geoptimaliseerd voor hoge efficiëntie, ondersteunt contextlengtes van meer dan 800.000 tokens.

  • Qwen3.5-flitser: Gehoste versie op productieniveau, met een standaardtokencontextlengte van 1 miljoen en ingebouwde officiële tools.

  • Qwen3.5-122B-A10B: Dit model is ontworpen voor GPU’s van serverkwaliteit (80 GB VRAM) en ondersteunt contextlengtes van meer dan 1 miljoen, terwijl het de kloof met ’s werelds grootste frontier-modellen verkleint.

Benchmarkresultaten valideren deze architecturale verandering. Het 35B-A3B-model presteert aanzienlijk beter dan zijn veel grotere voorgangers, zoals de Qwen3-235B, evenals de eerder genoemde GPT-5 mini en Sonnet 4.5 in categorieën zoals kennis (MMMLU) en visueel redeneren (MMMMU-Pro).

Alibaba Qwen3.5 benchmarkvergelijkingstabel voor middenklasse modellen. Krediet: Alibaba

Prijzen en API-integratie

Voor degenen die hun eigen gewichten niet hosten, biedt Alibaba Cloud Model Studio een concurrerende API voor Qwen3.5-Flash.

  • Invoer: $0,1 per 1 miljoen tokens

  • Uitvoer: $0,4 per 1 miljoen tokens

  • Caching: $0,125 per 1 miljoen tokens

  • Lees cache: $0,01 per 1 miljoen tokens

De API beschikt ook over een gedetailleerd Tool Call-prijsmodel, waarbij Web Search $ 10 per 1.000 oproepen kost en Code Translator momenteel voor een beperkte tijd gratis wordt aangeboden.

Dit maakt Qwen3.5-Flash een van de meest betaalbare API’s van alle grote LLM’s ter wereld. Zie de vergelijkingstabel hieronder:

Model

Invoer

Uitvoer

Totale kosten

Bron

Qwen3 Turbo

$ 0,05

$ 0,20

$ 0,25

AlibabaCloud

Qwen3.5-Flash

$ 0,10

$ 0,40

$ 0,50

Alibaba-wolk

diepe chat (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

Diep zoeken

deepseek-reasoner (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

Diep zoeken

Grok 4.1 Snel (redenering)

$ 0,20

$ 0,50

$ 0,70

xAI

Grok 4.1 Snel (niet redenerend)

$ 0,20

$ 0,50

$ 0,70

xAI

MiniMax M2.5

$ 0,15

$ 1,20

$ 1,35

MiniMax

MiniMax M2.5-Bliksem

$ 0,30

$ 2,40

$ 2,70

MiniMax

Gemini 3 Flash-voorbeeld

$ 0,50

$ 3,00

$ 3,50

Googlen

Kimi-k2.5

$ 0,60

$ 3,00

$ 3,60

Maanschot

GLM-5

$ 1,00

$ 3,20

$ 4,20

Z.ai

ERNIE 5.0

$ 0,85

$ 3,40

$ 4,25

Baidu

Claude Haiku 4.5

$ 1,00

$ 5,00

$ 6,00

Antropisch

Qwen3-Max (23-01-2026)

$ 1,20

$ 6,00

$ 7,20

AlibabaCloud

Gemini 3 Pro (≤200K)

$ 2,00

$ 12,00

$ 14,00

Googlen

GPT-5.2

$ 1,75

$ 14,00

$ 15,75

Open AI

Claude Sonnetten 4.5

$ 3,00

$ 15,00

$ 18,00

Antropisch

Gemini 3 Pro (>200K)

$ 4,00

$ 18,00

$ 22,00

Googlen

Taak sluiten 4.6

$ 5,00

$ 25,00

$ 30,00

Antropisch

GPT-5.2 Pro

$ 21,00

$ 168,00

$ 189,00

Open AI

Wat dit betekent voor technische leiders en besluitvormers van ondernemingen

Met de lancering van het Qwen3.5 Intermediate Model is het snelle iteratieve en aanpassingsproces dat voorheen alleen door goed gefinancierde laboratoria werd uitgevoerd, nu toegankelijk voor on-site ontwikkeling bij veel niet-technische bedrijven, waardoor geavanceerde AI effectief wordt losgekoppeld van grote kapitaaluitgaven.

In de hele organisatie verandert deze architectuur de manier waarop gegevens worden verwerkt en beveiligd. De mogelijkheid om enorme documentopslagplaatsen of urenlange video’s lokaal op te nemen, maakt diepgaande institutionele analyses mogelijk zonder de privacyrisico’s van API’s van derden.

Door dit aangepaste ‘Mixture-of-Experts’-model binnen een privéfirewall uit te voeren, kunnen organisaties soevereine controle over hun gegevens behouden, terwijl ze gebruik maken van de native ‘denk’-modus en gezaghebbende tools-aanroepmogelijkheden om betrouwbaardere en autonomere agenten te bouwen.

De early adopters van Hugging Face prezen vooral het vermogen van het model om “de kloof te verkleinen” in agentscenario’s waarin voorheen alleen de grootste gesloten modellen konden concurreren.

De verschuiving naar architecturale efficiëntie op ruwe schaal zorgt ervoor dat AI-integratie kosteneffectief, veilig en flexibel genoeg blijft om gelijke tred te houden met de veranderende operationele behoeften.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in