Hoewel politieke onrust in de Amerikaanse AI-sectorin China gaat de vooruitgang op het gebied van AI ongehinderd door.
Eerder vandaag lanceerde het Qwen AI-onderzoeksteam van e-commercegigant Alibaba, dat zich voornamelijk richt op het ontwikkelen en wereldwijd lanceren van zijn suite van multimodale AI-modellen en de krachtige en capabele Qwen open source-taal, zijn nieuwste batch, Qwen3.5 kleine modelseriebestaande uit:
-
Qwen3,5-0,8B & 2B: De twee modellen, beide geoptimaliseerd voor ‘kleine’ en ‘snelle’ prestaties, zijn bedoeld voor prototyping en implementatie op edge-apparaten waarbij de levensduur van de batterij prioriteit heeft.
-
Qwen3.5-4B: Een krachtige multimodale basis voor lichtgewicht agenten, die native een contextvenster van 262.144 tokens ondersteunt.
-
Qwen3.5-9B compact redeneermodel dat 13,5x beter presteert Open source OpenAI, een Amerikaanse rivaal, gpt-oss-120B op belangrijke benchmarks van derden, waaronder meertalige kennis en redeneren op universitair niveau
Voor het perspectief behoren deze modellen tot de kleinste modellen voor algemene doeleinden die recentelijk door welk laboratorium dan ook ter wereld zijn ingediend, meer vergelijkbaar met de afdeling van MIT. LiquidAI LFM2-seriedie ook enkele honderden miljoenen of miljarden parameters heeft, versus de geschatte biljoen parameters (modelinstellingen) die naar verluidt worden gebruikt voor vlaggenschipmodellen uit de OpenAI-, Anthropic- en Google Gemini-series.
Gewichten voor het model zijn momenteel wereldwijd beschikbaar onder de Apache 2.0-licentie – perfect voor zakelijk en commercieel gebruik, inclusief aanpassingen indien nodig – op Knuffelend gezicht En Modelomvang.
Technologie: hybride efficiëntie en native multimodaliteit
De technische basis van de Qwen3.5 kleine serie wijkt af van de standaard Transformer-architectuur. Alibaba is op weg naar een efficiënte hybride architectuur die Gated Delta Networks (een vorm van lineaire aandacht) combineert met een gedistribueerde Mixture-of-Experts (MoE).
Deze hybride aanpak overwint de ‘geheugenmuren’ die doorgaans kleine modellen beperken; door gebruik te maken van Gated Delta Networks bereikt het model een hogere doorvoer en een veel lagere latentie tijdens inferentie.
Bovendien is dit model in wezen multimodaal. In tegenstelling tot eerdere generaties die vision-encoders ‘samensmolten’ met tekstmodellen, is Qwen3.5 getraind met behulp van initiële fusie op multimodale tokens. Hierdoor kunnen de 4B- en 9B-modellen een niveau van visueel begrip demonstreren – zoals het lezen van UI-elementen of het tellen van objecten in een video – waarvoor voorheen modellen nodig waren die tien keer zo groot waren.
Vergelijking van “kleine” series: niet-meetbare prestaties
Nieuw vrijgegeven benchmarkgegevens illustreren hoe agressief dit compacte model concurreert met (en vaak overtreft) veel grotere industriestandaarden. De varianten Qwen3.5-9B en Qwen3.5-4B vertegenwoordigen een sprong in efficiëntie over de generaties heen, vooral bij multimodale en redeneringstaken.
Multimodale dominantie: In de MMMU-Pro visuele redeneringsbenchmark behaalde de Qwen3.5-9B een score van 70,1, waarmee hij beter presteerde dan de Gemini 2.5 Flash-Lite (59,7) en zelfs de speciale Qwen3-VL-30B-A3B (63,0).
Redeneren op graduate niveau: Op de GPQA Diamond-benchmark behaalde model 9B een score van 81,7, waarmee hij gpt-oss-120b (80,1) overtreft, een model met meer dan tien keer zoveel parameters.
Video-begrip: Deze serie toont topprestaties op het gebied van videoredeneren. In de Video-MME-benchmark (met ondertitels) scoorde de Qwen3.5-9B 84,5 en de 4B 83,5, aanzienlijk hoger dan de Gemini 2.5 Flash-Lite (74,6).
Wiskundige vaardigheden: In de HMMT-evaluatie van februari 2025 (Harvard-MIT wiskundetoernooi) scoorde het 9B-model 83,2, terwijl de 4B-variant 74,0 scoorde, wat bewijst dat STEM-redenering op hoog niveau niet langer grote computerclusters vereist.
Document- en meertalige kennis: De 9B-variant leidt in documentherkenning in OmniDocBench v1.5 met een score van 87,7. Ondertussen behield het een meertalige aanwezigheid op het hoogste niveau op MMMLU met een score van 81,2, beter dan gpt-oss-120b (78,2).
Reactie van de gemeenschap: “meer intelligentie, minder computergebruik”
Dit volgt op de release van vorige week van een toch al vrij kleine en krachtige open source Qwen3,5-gemiddeld De aankondiging van de Qwen3.5-Small Models Series, die op één GPU kan draaien, en het kleinere formaat en de kleinere verwerkingsvereisten, wekten onmiddellijk interesse onder ontwikkelaars die zich richtten op “local-first” AI.
“Meer intelligentie, minder rekenkracht” sluit aan bij de wensen van gebruikers die op zoek zijn naar alternatieven voor cloudgebaseerde modellen.
Docent AI en technologie Paul Couvert Blueshell AI zorgde voor de verbazing van de industrie over deze sprong in efficiëntie.
“Hoe is dit mogelijk?!” Couvert schrijf op X. “Qwen heeft 4 nieuwe modellen uitgebracht en de 4B-versie is bijna net zo capabel als de vorige 80B A3B-versie. En de 9B is net zo goed als de GPT OSS 120b, maar 13x kleiner!”
Couverts analyse benadrukt de praktische implicaties van de volgende architectonische ontwikkelingen:
-
“Ze kunnen op elke laptop draaien”
-
“0,8B en 2B voor je telefoon”
-
“offline en open source”
Als ontwikkelaar Karan Kendre van Kargul Studio zei het: “dit model (kan gratis worden uitgevoerd) lokaal op mijn M1 MacBook Air.”
Dit sentiment van ‘geweldige’ toegankelijkheid resoneert ook in het hele ecosysteem van ontwikkelaars. Eén gebruiker merkte op dat het 4B-model dat dient als een “krachtige multimodale basis” een “game changer is voor mobiele ontwikkelaars” die schermleesmogelijkheden nodig hebben zonder hoge CPU-overhead.
Inderdaad, ontwikkelaar Hugging Face merkte Xenova op dat de nieuwe Qwen3.5 Small Model-serie zelfs rechtstreeks in de webbrowser van de gebruiker kan draaien en geavanceerde, rekentechnisch veeleisendere bewerkingen kan uitvoeren, zoals videoanalyse.
Onderzoekers prezen ook de vrijlating Basismodel naast de Instruct-versiewaarbij wordt opgemerkt dat dit cruciale ondersteuning biedt voor ‘industriële innovatie in de echte wereld’.
De release van het Baseline-model wordt zeer gewaardeerd door bedrijfsteams en onderzoekers omdat het ‘lege gegevens’ oplevert die niet zijn vertekend door bepaalde RLHF (Reinforcement Learning from Human Feedback) of SFT (Supervised Fine-Tuning) datasets, wat vaak kan leiden tot ‘weerstand’ of bepaalde gespreksstijlen die moeilijk ongedaan kunnen worden gemaakt.
Met het Basic-model zullen degenen die geïnteresseerd zijn in het aanpassen van het model aan specifieke taken en doelen een eenvoudiger startpunt hebben, omdat ze nu hun eigen instructies en aanpassingen na de training kunnen implementeren zonder Alibaba te hoeven verwijderen.
Licenties: een overwinning voor open ecosystemen
Alibaba heeft de gewichten en configuratiebestanden voor de Qwen3.5-serie vrijgegeven onder de Apache 2.0-licentie. Deze permissieve licentie staat commercieel gebruik, wijziging en distributie toe zonder betaling van royalty’s, waardoor de “vendor lock-in” die gepaard gaat met propriëtaire API’s wordt geëlimineerd.
-
Commercieel gebruik: Ontwikkelaars kunnen modellen kosteloos in commerciële producten integreren.
-
Wijziging: Teams kunnen RLHF verfijnen (SFT) of toepassen om een aangepaste versie te maken.
-
Verdeling: Modellen kunnen opnieuw worden gedistribueerd in local-first AI-toepassingen zoals Ollama.
Het nieuws contextualiseren: waarom de kleine dingen er op dit moment zo toe doen
De lancering van de Qwen3.5 Small Series komt op het moment van “Agentic Realignment”. We zijn voorbij eenvoudige chatbots gegaan; het doel is nu autonomie. Autonome agenten moeten ‘denken’ (redeneren), ‘zien’ (multimodaliteit) en ‘handelen’ (toolgebruik). Hoewel dit met een model met biljoen parameters duur is, kan de lokale Qwen3.5-9B deze lus voor een fractie van de kosten uitvoeren.
Door Reinforcement Learning (RL) te schalen over een omgeving met miljoenen agenten, heeft Alibaba deze kleine modellen voorzien van een ‘menselijk afgestemd beoordelingsvermogen’, waardoor ze doelen in meerdere stappen kunnen realiseren, zoals het opzetten van een desktop of het reverse-engineeren van gameplay-beelden in code. Of het nu het 0.8B-model is dat op een smartphone draait of het 9B-model dat een codeerterminal gebruikt, de Qwen3.5-serie democratiseert effectief het ‘agentic-tijdperk’.
De transitie van de Qwen3.5-serie van ‘chatbits’ naar ‘native multimodale agenten’ verandert de manier waarop bedrijven intelligentie distribueren. Door geavanceerd denken naar de ‘edge’ (individuele apparaten en lokale servers) te verplaatsen, kunnen organisaties taken automatiseren waarvoor voorheen dure cloud-API’s of verwerking met hoge latentie nodig waren.
Strategische bedrijfstoepassingen en overwegingen
De 0,8B tot en met 9B-modellen zijn opnieuw ontworpen voor efficiëntie, waarbij gebruik wordt gemaakt van een hybride architectuur die alleen het deel van het netwerk activeert dat voor elke taak nodig is.
-
Visuele workflowautomatisering: Met behulp van een ‘fundament op pixelniveau’ kan het model door desktop- of mobiele gebruikersinterfaces navigeren, formulieren invullen en bestanden ordenen op basis van instructies in natuurlijke taal.
-
Complexe documentparsering: Met scores van meer dan 90% op benchmarks voor documentbegrip kunnen ze afzonderlijke OCR- en layout-parsing-pijplijnen vervangen om gestructureerde gegevens uit een verscheidenheid aan vormen en diagrammen te extraheren.
-
Autonome codering en refactoring: Bedrijven kunnen volledige repository’s (tot 400.000 regels code) in een contextvenster van 1 miljoen plaatsen voor productieklare refactoring of geautomatiseerde foutopsporing.
-
Real-time edge-analyse: De 0.8B- en 2B-modellen zijn ontworpen voor mobiele apparaten en maken offline video-samenvattingen (tot 60 seconden bij 8 FPS) en ruimtelijk redeneren mogelijk zonder de levensduur van de batterij te belasten.
De onderstaande tabel schetst welke bedrijfsfuncties het meeste voordeel zullen halen uit de implementatie van een lokaal en klein model.
|
Functie |
Belangrijkste voordelen |
Belangrijkste gebruiksscenario’s |
|
Software-engineering |
Lokale code-inlichtingen |
Gehele repository opnieuw ingericht en terminal-gebaseerde agenten gecodeerd. |
|
Operatie & IT |
Veilige automatisering |
Automatiseer systeemconfiguratie in meerdere stappen en taken voor bestandsbeheer lokaal. |
|
Product- en gebruikerservaring |
Randinteractie |
Integreer native multimodaal redeneren rechtstreeks in mobiele/desktopapplicaties. |
|
Gegevens en analyses |
Efficiënte extractie |
High-fidelity OCR en gestructureerde gegevensextractie uit complexe visuele rapporten. |
Hoewel deze modellen zeer capabel zijn, geven hun kleinschaligheid en ‘agentische’ aard aanleiding tot bepaalde operationele ‘signalen’ die teams moeten monitoren.
-
Hallucinatiecascade: In een ‘agentische’ workflow die uit meerdere stappen bestaat, kan een kleine fout in een vroege stap leiden tot een ‘keten’ van mislukkingen wanneer de agent een onjuist of onzinnig plan uitvoert.
-
Foutopsporing versus foutopsporing Greenfield-codering: Hoewel deze modellen uitblinken in het schrijven van nieuwe ‘greenfield’-code, kunnen ze moeite hebben met het debuggen of aanpassen van bestaande, complexe oudere systemen.
-
Geheugen- en VRAM-verzoeken: Zelfs “kleine” modellen (zoals de 9B) hebben aanzienlijke VRAM nodig voor gevolgtrekking met hoge doorvoer; De “geheugenvoetafdruk” blijft hoog omdat het totale aantal parameters nog steeds GPU-ruimte in beslag neemt.
-
Regelgeving en gegevensresidentie: Het gebruik van een model van een in China gevestigde provider kan vragen oproepen over de datalocatie in bepaalde rechtsgebieden, hoewel de open-weight versie van Apache 2.0 hosting in een lokale, “soevereine” cloud mogelijk maakt.
Bedrijven moeten prioriteit geven aan ‘verifieerbare’ taken – zoals coderen, wiskunde of het volgen van instructies – waarvan de resultaten automatisch kunnen worden gecontroleerd aan de hand van vooraf gedefinieerde regels om ‘beloninghacking’ of stille mislukkingen te voorkomen.



