Chinese AI-startup Zipu AI oftewel Z.ai heeft zijn GLM-4.6V-serie uitgebrachteen nieuwe generatie open-source vision-taalmodellen (VLM’s) die zijn geoptimaliseerd voor multimodaal redeneren, frontend-automatisering en uiterst efficiënte implementaties.
Deze release bevat twee modellen in de maten ‘groot’ en ‘klein’:
-
GLM-4,6V (106B)een groter parametermodel van 106 miljard, gericht op gevolgtrekking op cloudschaal
-
GLM-4.6V-flitser (9B)een kleiner model met slechts 9 miljard parameters, ontworpen voor lokale toepassingen met lage latentie
Houd er rekening mee dat modellen met meer parameters (of de interne instellingen die hun gedrag bepalen, namelijk gewichten en biases) over het algemeen robuuster zijn, beter presteren en in staat zijn om op een hoger algemeenheidsniveau te presteren bij een grotere verscheidenheid aan taken.
Kleinere modellen kunnen echter een betere efficiëntie bieden voor edge- of realtime-applicaties waarbij latentie en resourcebeperkingen van cruciaal belang zijn.
De bepalende innovatie in de serie is de introductie originele functieaanroep in visuele taalmodellen, waardoor direct gebruik mogelijk is van tools zoals traceren, bijsnijden of diagramherkenning met visuele invoer.
Met een contextlengte van 128.000 tokens (equivalent aan 300 pagina’s nieuwe tekst uitgewisseld in een enkele input/output-interactie met een gebruiker) en state-of-the-art resultaten (SoTA) in meer dan 20 benchmarks, positioneert de GLM-4.6V-serie zichzelf als een zeer competitief alternatief voor closed-source en open-source VLM’s. Het is beschikbaar in de volgende formaten:
Licenties en bedrijfsgebruik
GLM‑4.6V en GLM‑4.6V‑Flash worden hieronder verdeeld MIJN licentieeen permissieve open source-licentie die gratis commercieel en niet-commercieel gebruik, wijziging, herdistributie en lokale implementatie zonder verplichting van open source-afgeleide werken toestaat.
Dit licentiemodel maakt de serie geschikt voor adoptie door ondernemingen, inclusief scenario’s die volledige controle over de infrastructuur, naleving van intern bestuur of ‘air-gapped’-omgevingen vereisen.
Modelgewichten en documentatie worden openbaar gehost Knuffelend gezichtmet ondersteunende code en tools beschikbaar GitHub.
De MIT-licentie garandeert maximale flexibiliteit voor integratie in eigen systemen, inclusief interne tools, productiepijplijnen en edge-implementaties.
Architectuur en technische mogelijkheden
Het GLM-4.6V-model volgt een conventionele encoder-decoder-architectuur met aanzienlijke aanpassingen voor multimodale invoer.
Beide modellen gebruiken een Vision Transformer (ViT)-encoder, gebaseerd op AIMv2-Huge, en een MLP-projector om visuele kenmerken uit te lijnen met een Large Language Model (LLM)-decoder.
Video-invoer profiteert van 3D-convolutie en temporele compressie, terwijl ruimtelijke codering wordt afgehandeld met behulp van 2D-RoPE en bicubische interpolatie op absolute positie-inbedding.
Het belangrijkste technische kenmerk is de ondersteuning van het systeem voor willekeurige beeldresoluties en beeldverhoudingen, inclusief brede panorama-invoer tot 200:1.
Naast het parseren van statische afbeeldingen en documenten, kan GLM-4.6V tijdelijke reeksen videoframes met expliciete tijdstempeltokens opnemen, waardoor krachtig temporeel redeneren mogelijk wordt.
Aan de decoderingskant ondersteunt het model het genereren van tokens in overeenstemming met functieaanroepprotocollen, waardoor gestructureerd redeneren over tekst-, beeld- en tooluitvoer mogelijk wordt. Het wordt ondersteund door een uitgebreide tokenizer-vocabulaire en uitvoeropmaaksjablonen om consistente API- of agent-compatibiliteit te garanderen.
Gebruik van native multimodale tools
GLM-4.6V introduceert native multimodale functieaanroepen, waardoor visuele assets, zoals schermafbeeldingen, afbeeldingen en documenten, rechtstreeks als parameters aan de tool kunnen worden doorgegeven. Dit elimineert de noodzaak van alleen-tekstconversies, die historisch gezien hebben geleid tot informatieverlies en complexiteit.
Het tooloproepmechanisme werkt in twee richtingen:
-
Invoertools kunnen afbeeldingen of video’s rechtstreeks verzenden (bijvoorbeeld documentpagina’s voor bijsnijden of analyse).
-
Uitvoertools zoals grafiekrenderers of web-snapshot-hulpprogramma’s retourneren visuele gegevens, die de GLM-4.6V rechtstreeks in de redeneringsketen integreert.
In de praktijk betekent dit dat de GLM-4.6V taken kan uitvoeren zoals:
-
Genereer gestructureerde rapporten van documenten met verschillende formaten
-
Voer een visuele audit uit van kandidaatafbeeldingen
-
Snijdt automatisch afbeeldingen van papier tijdens het maken
-
Voer visuele zoekopdrachten op internet uit en beantwoord multimodale vragen
Hoogwaardige benchmarks ten opzichte van andere modellen van vergelijkbare grootte
GLM-4.6V werd geëvalueerd op basis van meer dan twintig openbare benchmarks die betrekking hadden op algemene VQA, grafiekbegrip, OCR, STEM-redenering, frontend-replicatie en multimodale agenten.
Volgens benchmarkgrafieken vrijgegeven door Zhipu AI:
-
GLM-4.6V (106B) behaalt SoTA- of bijna SoTA-scores onder open source-modellen van vergelijkbare grootte (106B) in MMBench, MathVista, MMLongBench, ChartQAPro, RefCOCO, TreeBench en meer.
-
De GLM-4.6V-Flash (9B) presteerde beter dan andere lichtgewicht modellen (bijv. Qwen3-VL-8B, GLM-4.1V-9B) in bijna alle geteste categorieën.
-
Dankzij het 128K-tokenvenster van het 106B-model kan het beter presteren dan grotere modellen zoals de Step-3 (321B) en Qwen3-VL-235B bij de taken van lange contextdocumenten, video-samenvattingen en gestructureerd multimodaal redeneren.
Voorbeelden van scores op scoreborden zijn onder meer:
-
MathVista: 88,2 (GLM-4.6V) versus 84,6 (GLM-4,5V) versus 81,4 (Qwen3-VL-8B)
-
WebVoyager: 81,0 versus 68,4 (Qwen3-VL-8B)
-
Ref-L4-test: 88,9 vs. 89,5 (GLM-4.5V), maar met betere aardingsgetrouwheid bij 87,7 (Flash) vs. 86,8
Beide modellen worden geëvalueerd met behulp van de vLLM-inferentiebackend en ondersteunen SGLang voor op video gebaseerde taken.
Frontend-automatisering en lange-contextworkflows
Zhipu AI benadrukt de mogelijkheden van de GLM-4.6V om frontend-ontwikkelingsworkflows te ondersteunen. Het model kan:
-
Pixel-nauwkeurige HTML/CSS/JS-replicatie van UI-screenshots
-
Ontvang bewerkingsopdrachten in natuurlijke taal om de lay-out te wijzigen
-
Identificeer en manipuleer specifieke UI-componenten visueel
Deze mogelijkheden zijn geïntegreerd in een end-to-end visuele programmeerinterface, waarbij het model de lay-out, ontwerpintentie en uitvoercode herhaalt met behulp van het oorspronkelijke begrip van schermafbeeldingen.
In scenario’s met lange documenten kan de GLM-4.6V tot 128.000 tokens verwerken, waardoor één enkele gevolgtrekking mogelijk is:
Zhipu AI rapporteert succesvol gebruik van dit model bij financiële analyses van corpora met meerdere documenten en bij het samenvatten van volledige sportuitzendingen met tijdstempelgebeurtenisdetectie.
Training en versterkingsleren
Het model wordt getraind met behulp van pre-training in meerdere fasen, gevolgd door supervisie bij fijnafstemming (SFT) en versterkend leren (RL). Belangrijke innovaties zijn onder meer:
-
Curriculum Sampling (RLCS): Past dynamisch de moeilijkheidsgraad van trainingsvoorbeelden aan op basis van de voortgang van het model
-
Beloningssysteem voor meerdere domeinen: taakspecifieke verificateurs voor STEM, diagramredenering, GUI-agents, video-QA en ruimtelijke basis
-
Functiebewuste training: Het gebruik van gestructureerde tags (bijvoorbeeld
, , <|begin_of_box|>) om de redenering en het antwoordformaat op één lijn te brengen
De versterkingsleerpijplijn legt de nadruk op verifieerbare beloning (RLVR) boven menselijke feedback (RLHF) voor schaalbaarheid, en vermijdt KL/entropieverlies om training in multimodale domeinen te stabiliseren
Prijzen (API)
Zhipu AI biedt concurrerende prijzen voor de GLM-4.6V-serie, waarbij het vlaggenschipmodel en de lichte varianten zijn gepositioneerd voor hoge toegankelijkheid.
Vergeleken met grote LLM’s die tekst kunnen bekijken en consumeren, behoort de GLM-4.6V tot de meest kosteneffectieve voor multimodaal redeneren op schaal. Hieronder vindt u een overzicht van prijsvergelijkingen tussen aanbieders:
USD per 1 miljoen tokens – gesorteerd op laagste → hoogste totale kosten
|
Model |
Invoer |
Uitvoer |
Totale kosten |
Bron |
|
Qwen3 Turbo |
$ 0,05 |
$ 0,20 |
$ 0,25 |
|
|
ERNIE 4.5 Turbo |
$ 0,11 |
$ 0,45 |
$ 0,56 |
|
|
GLM‑4,6V |
$ 0,30 |
$ 0,90 |
$ 1,20 |
|
|
Grok 4.1 Snel (redenering) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
Grok 4.1 Snel (niet redenerend) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
diepe chat (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
deepseek-reasoner (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
Qwen3 Plus |
$ 0,40 |
$ 1,20 |
$ 1,60 |
|
|
ERNIE 5.0 |
$ 0,85 |
$ 3,40 |
$ 4,25 |
|
|
Qwen-Max |
$ 1,60 |
$ 6,40 |
$ 8,00 |
|
|
GPT-5.1 |
$ 1,25 |
$ 10,00 |
$ 11,25 |
|
|
Gemini 2.5 Pro (≤200K) |
$ 1,25 |
$ 10,00 |
$ 11,25 |
|
|
Gemini 3 Pro (≤200K) |
$ 2,00 |
$ 12,00 |
$ 14,00 |
|
|
Gemini 2.5 Pro (>200K) |
$ 2,50 |
$ 15,00 |
$ 17,50 |
|
|
Grok 4 (0709) |
$ 3,00 |
$ 15,00 |
$ 18,00 |
|
|
Gemini 3 Pro (>200K) |
$ 4,00 |
$ 18,00 |
$ 22,00 |
|
|
Taak sluiten 4.1 |
$ 15,00 |
$ 75,00 |
$ 90,00 |
Eerdere releases: GLM‑4.5-serie en Enterprise-applicaties
Vóór GLM-4.6V bracht Z.ai medio 2025 de GLM-4.5-suite uit, waardoor het bedrijf een serieuze concurrent werd op het gebied van open source LLM-ontwikkeling.
Het vlaggenschip GLM‑4.5 en zijn kleinere broer GLM‑4.5‑Air ondersteunen redenering, toolgebruik, codering en agentgedrag, terwijl ze sterke prestaties bieden in standaard benchmarks.
Het model introduceert dubbele redeneermodi (“denken” en “niet denken”) en kan automatisch volledige PowerPoint-presentaties genereren vanuit één enkele opdracht – een functie die is gepositioneerd voor gebruik in bedrijfsrapportage, onderwijs en interne communicatieworkflows. Z.ai breidt de GLM-4.5-serie ook uit met extra varianten zoals GLM-4.5-X, AirX en Flash, gericht op ultrasnelle gevolgtrekkingen en goedkope scenario’s.
Alles bij elkaar positioneren deze kenmerken de GLM‑4.5-serie als een kosteneffectief, open en productieklaar alternatief voor bedrijven die autonomie nodig hebben op het gebied van modelimplementatie, levenscyclusbeheer en integratiepijplijnen.
Implicaties voor het ecosysteem
De release van GLM-4.6V vertegenwoordigt een belangrijke vooruitgang in open source multimodale AI. Hoewel er het afgelopen jaar grote aantallen visuele taalmodellen zijn verschenen, bieden er maar weinig modellen:
-
Gebruik van geïntegreerde visuele hulpmiddelen
-
Gestructureerde multimodale opwekking
-
Agent-georiënteerd geheugen en beslissingslogica
De nadruk van Zhipu AI op het ‘sluiten van de cirkel’ van perceptie naar actie door middel van native functieaanroepen markeert een stap in de richting van multimodale systemen van agenten.
Deze modelarchitectuur en modeltrainingspijplijn demonstreren de voortdurende evolutie van de GLM-familie, waardoor deze concurrerend wordt gepositioneerd naast aanbiedingen als OpenAI’s GPT-4V en Google DeepMind’s Gemini-VL.
Conclusie voor bedrijfsleiders
Met GLM-4.6V introduceert Zhipu AI een open source VLM die in staat is tot native visuele tools, redeneren in lange contexten en frontend-automatisering. Dit zet een nieuwe prestatiebenchmark onder modellen van vergelijkbare grootte en biedt een schaalbaar platform voor het bouwen van agentische, multimodale AI-systemen.



