Home Nieuws Z.ai lanceert open source GLM-4.6V, een native, tool-aanroepend visiemodel voor multimodaal redeneren

Z.ai lanceert open source GLM-4.6V, een native, tool-aanroepend visiemodel voor multimodaal redeneren

Door

december 9, 2025

Chinese AI-startup Zipu AI oftewel Z.ai heeft zijn GLM-4.6V-serie uitgebrachteen nieuwe generatie open-source vision-taalmodellen (VLM’s) die zijn geoptimaliseerd voor multimodaal redeneren, frontend-automatisering en uiterst efficiënte implementaties.

Deze release bevat twee modellen in de maten ‘groot’ en ‘klein’:

GLM-4,6V (106B)een groter parametermodel van 106 miljard, gericht op gevolgtrekking op cloudschaal
GLM-4.6V-flitser (9B)een kleiner model met slechts 9 miljard parameters, ontworpen voor lokale toepassingen met lage latentie

Houd er rekening mee dat modellen met meer parameters (of de interne instellingen die hun gedrag bepalen, namelijk gewichten en biases) over het algemeen robuuster zijn, beter presteren en in staat zijn om op een hoger algemeenheidsniveau te presteren bij een grotere verscheidenheid aan taken.

Kleinere modellen kunnen echter een betere efficiëntie bieden voor edge- of realtime-applicaties waarbij latentie en resourcebeperkingen van cruciaal belang zijn.

De bepalende innovatie in de serie is de introductie originele functieaanroep in visuele taalmodellen, waardoor direct gebruik mogelijk is van tools zoals traceren, bijsnijden of diagramherkenning met visuele invoer.

Met een contextlengte van 128.000 tokens (equivalent aan 300 pagina’s nieuwe tekst uitgewisseld in een enkele input/output-interactie met een gebruiker) en state-of-the-art resultaten (SoTA) in meer dan 20 benchmarks, positioneert de GLM-4.6V-serie zichzelf als een zeer competitief alternatief voor closed-source en open-source VLM’s. Het is beschikbaar in de volgende formaten:

Licenties en bedrijfsgebruik

GLM‑4.6V en GLM‑4.6V‑Flash worden hieronder verdeeld MIJN licentieeen permissieve open source-licentie die gratis commercieel en niet-commercieel gebruik, wijziging, herdistributie en lokale implementatie zonder verplichting van open source-afgeleide werken toestaat.

Dit licentiemodel maakt de serie geschikt voor adoptie door ondernemingen, inclusief scenario’s die volledige controle over de infrastructuur, naleving van intern bestuur of ‘air-gapped’-omgevingen vereisen.

Modelgewichten en documentatie worden openbaar gehost Knuffelend gezichtmet ondersteunende code en tools beschikbaar GitHub.

De MIT-licentie garandeert maximale flexibiliteit voor integratie in eigen systemen, inclusief interne tools, productiepijplijnen en edge-implementaties.

Architectuur en technische mogelijkheden

Het GLM-4.6V-model volgt een conventionele encoder-decoder-architectuur met aanzienlijke aanpassingen voor multimodale invoer.

Beide modellen gebruiken een Vision Transformer (ViT)-encoder, gebaseerd op AIMv2-Huge, en een MLP-projector om visuele kenmerken uit te lijnen met een Large Language Model (LLM)-decoder.

Video-invoer profiteert van 3D-convolutie en temporele compressie, terwijl ruimtelijke codering wordt afgehandeld met behulp van 2D-RoPE en bicubische interpolatie op absolute positie-inbedding.

Het belangrijkste technische kenmerk is de ondersteuning van het systeem voor willekeurige beeldresoluties en beeldverhoudingen, inclusief brede panorama-invoer tot 200:1.

Naast het parseren van statische afbeeldingen en documenten, kan GLM-4.6V tijdelijke reeksen videoframes met expliciete tijdstempeltokens opnemen, waardoor krachtig temporeel redeneren mogelijk wordt.

Aan de decoderingskant ondersteunt het model het genereren van tokens in overeenstemming met functieaanroepprotocollen, waardoor gestructureerd redeneren over tekst-, beeld- en tooluitvoer mogelijk wordt. Het wordt ondersteund door een uitgebreide tokenizer-vocabulaire en uitvoeropmaaksjablonen om consistente API- of agent-compatibiliteit te garanderen.

Gebruik van native multimodale tools

GLM-4.6V introduceert native multimodale functieaanroepen, waardoor visuele assets, zoals schermafbeeldingen, afbeeldingen en documenten, rechtstreeks als parameters aan de tool kunnen worden doorgegeven. Dit elimineert de noodzaak van alleen-tekstconversies, die historisch gezien hebben geleid tot informatieverlies en complexiteit.

Het tooloproepmechanisme werkt in twee richtingen:

Invoertools kunnen afbeeldingen of video’s rechtstreeks verzenden (bijvoorbeeld documentpagina’s voor bijsnijden of analyse).
Uitvoertools zoals grafiekrenderers of web-snapshot-hulpprogramma’s retourneren visuele gegevens, die de GLM-4.6V rechtstreeks in de redeneringsketen integreert.

In de praktijk betekent dit dat de GLM-4.6V taken kan uitvoeren zoals:

Genereer gestructureerde rapporten van documenten met verschillende formaten
Voer een visuele audit uit van kandidaatafbeeldingen
Snijdt automatisch afbeeldingen van papier tijdens het maken
Voer visuele zoekopdrachten op internet uit en beantwoord multimodale vragen

Hoogwaardige benchmarks ten opzichte van andere modellen van vergelijkbare grootte

GLM-4.6V werd geëvalueerd op basis van meer dan twintig openbare benchmarks die betrekking hadden op algemene VQA, grafiekbegrip, OCR, STEM-redenering, frontend-replicatie en multimodale agenten.

Z.ai GLM-4.6V benchmarkvergelijkingstabel. Krediet: Z.ai

Volgens benchmarkgrafieken vrijgegeven door Zhipu AI:

GLM-4.6V (106B) behaalt SoTA- of bijna SoTA-scores onder open source-modellen van vergelijkbare grootte (106B) in MMBench, MathVista, MMLongBench, ChartQAPro, RefCOCO, TreeBench en meer.
De GLM-4.6V-Flash (9B) presteerde beter dan andere lichtgewicht modellen (bijv. Qwen3-VL-8B, GLM-4.1V-9B) in bijna alle geteste categorieën.
Dankzij het 128K-tokenvenster van het 106B-model kan het beter presteren dan grotere modellen zoals de Step-3 (321B) en Qwen3-VL-235B bij de taken van lange contextdocumenten, video-samenvattingen en gestructureerd multimodaal redeneren.

Voorbeelden van scores op scoreborden zijn onder meer:

MathVista: 88,2 (GLM-4.6V) versus 84,6 (GLM-4,5V) versus 81,4 (Qwen3-VL-8B)
WebVoyager: 81,0 versus 68,4 (Qwen3-VL-8B)
Ref-L4-test: 88,9 vs. 89,5 (GLM-4.5V), maar met betere aardingsgetrouwheid bij 87,7 (Flash) vs. 86,8

Beide modellen worden geëvalueerd met behulp van de vLLM-inferentiebackend en ondersteunen SGLang voor op video gebaseerde taken.

Frontend-automatisering en lange-contextworkflows

Zhipu AI benadrukt de mogelijkheden van de GLM-4.6V om frontend-ontwikkelingsworkflows te ondersteunen. Het model kan:

Pixel-nauwkeurige HTML/CSS/JS-replicatie van UI-screenshots
Ontvang bewerkingsopdrachten in natuurlijke taal om de lay-out te wijzigen
Identificeer en manipuleer specifieke UI-componenten visueel

Deze mogelijkheden zijn geïntegreerd in een end-to-end visuele programmeerinterface, waarbij het model de lay-out, ontwerpintentie en uitvoercode herhaalt met behulp van het oorspronkelijke begrip van schermafbeeldingen.

In scenario’s met lange documenten kan de GLM-4.6V tot 128.000 tokens verwerken, waardoor één enkele gevolgtrekking mogelijk is:

Zhipu AI rapporteert succesvol gebruik van dit model bij financiële analyses van corpora met meerdere documenten en bij het samenvatten van volledige sportuitzendingen met tijdstempelgebeurtenisdetectie.

Training en versterkingsleren

Het model wordt getraind met behulp van pre-training in meerdere fasen, gevolgd door supervisie bij fijnafstemming (SFT) en versterkend leren (RL). Belangrijke innovaties zijn onder meer:

Curriculum Sampling (RLCS): Past dynamisch de moeilijkheidsgraad van trainingsvoorbeelden aan op basis van de voortgang van het model
Beloningssysteem voor meerdere domeinen: taakspecifieke verificateurs voor STEM, diagramredenering, GUI-agents, video-QA en ruimtelijke basis
Functiebewuste training: Het gebruik van gestructureerde tags (bijvoorbeeld , , <|begin_of_box|>) om de redenering en het antwoordformaat op één lijn te brengen

De versterkingsleerpijplijn legt de nadruk op verifieerbare beloning (RLVR) boven menselijke feedback (RLHF) voor schaalbaarheid, en vermijdt KL/entropieverlies om training in multimodale domeinen te stabiliseren

Prijzen (API)

Zhipu AI biedt concurrerende prijzen voor de GLM-4.6V-serie, waarbij het vlaggenschipmodel en de lichte varianten zijn gepositioneerd voor hoge toegankelijkheid.

Vergeleken met grote LLM’s die tekst kunnen bekijken en consumeren, behoort de GLM-4.6V tot de meest kosteneffectieve voor multimodaal redeneren op schaal. Hieronder vindt u een overzicht van prijsvergelijkingen tussen aanbieders:

USD per 1 miljoen tokens – gesorteerd op laagste → hoogste totale kosten

Model	Invoer	Uitvoer	Totale kosten	Bron
Qwen3 Turbo	$ 0,05	$ 0,20	$ 0,25	Alibaba-wolk
ERNIE 4.5 Turbo	$ 0,11	$ 0,45	$ 0,56	Qianfan
GLM‑4,6V	$ 0,30	$ 0,90	$ 1,20	Z. AI
Grok 4.1 Snel (redenering)	$ 0,20	$ 0,50	$ 0,70	xAI
Grok 4.1 Snel (niet redenerend)	$ 0,20	$ 0,50	$ 0,70	xAI
diepe chat (V3.2-Exp)	$ 0,28	$ 0,42	$ 0,70	Diep zoeken
deepseek-reasoner (V3.2-Exp)	$ 0,28	$ 0,42	$ 0,70	Diep zoeken
Qwen3 Plus	$ 0,40	$ 1,20	$ 1,60	AlibabaCloud
ERNIE 5.0	$ 0,85	$ 3,40	$ 4,25	Qianfan
Qwen-Max	$ 1,60	$ 6,40	$ 8,00	AlibabaCloud
GPT-5.1	$ 1,25	$ 10,00	$ 11,25	Open AI
Gemini 2.5 Pro (≤200K)	$ 1,25	$ 10,00	$ 11,25	Googlen
Gemini 3 Pro (≤200K)	$ 2,00	$ 12,00	$ 14,00	Googlen
Gemini 2.5 Pro (>200K)	$ 2,50	$ 15,00	$ 17,50	Googlen
Grok 4 (0709)	$ 3,00	$ 15,00	$ 18,00	xAI
Gemini 3 Pro (>200K)	$ 4,00	$ 18,00	$ 22,00	Googlen
Taak sluiten 4.1	$ 15,00	$ 75,00	$ 90,00	Antropisch

Eerdere releases: GLM‑4.5-serie en Enterprise-applicaties

Vóór GLM-4.6V bracht Z.ai medio 2025 de GLM-4.5-suite uit, waardoor het bedrijf een serieuze concurrent werd op het gebied van open source LLM-ontwikkeling.

Het vlaggenschip GLM‑4.5 en zijn kleinere broer GLM‑4.5‑Air ondersteunen redenering, toolgebruik, codering en agentgedrag, terwijl ze sterke prestaties bieden in standaard benchmarks.

Het model introduceert dubbele redeneermodi (“denken” en “niet denken”) en kan automatisch volledige PowerPoint-presentaties genereren vanuit één enkele opdracht – een functie die is gepositioneerd voor gebruik in bedrijfsrapportage, onderwijs en interne communicatieworkflows. Z.ai breidt de GLM-4.5-serie ook uit met extra varianten zoals GLM-4.5-X, AirX en Flash, gericht op ultrasnelle gevolgtrekkingen en goedkope scenario’s.

Alles bij elkaar positioneren deze kenmerken de GLM‑4.5-serie als een kosteneffectief, open en productieklaar alternatief voor bedrijven die autonomie nodig hebben op het gebied van modelimplementatie, levenscyclusbeheer en integratiepijplijnen.

Implicaties voor het ecosysteem

De release van GLM-4.6V vertegenwoordigt een belangrijke vooruitgang in open source multimodale AI. Hoewel er het afgelopen jaar grote aantallen visuele taalmodellen zijn verschenen, bieden er maar weinig modellen:

Gebruik van geïntegreerde visuele hulpmiddelen
Gestructureerde multimodale opwekking
Agent-georiënteerd geheugen en beslissingslogica

De nadruk van Zhipu AI op het ‘sluiten van de cirkel’ van perceptie naar actie door middel van native functieaanroepen markeert een stap in de richting van multimodale systemen van agenten.

Deze modelarchitectuur en modeltrainingspijplijn demonstreren de voortdurende evolutie van de GLM-familie, waardoor deze concurrerend wordt gepositioneerd naast aanbiedingen als OpenAI’s GPT-4V en Google DeepMind’s Gemini-VL.

Conclusie voor bedrijfsleiders

Met GLM-4.6V introduceert Zhipu AI een open source VLM die in staat is tot native visuele tools, redeneren in lange contexten en frontend-automatisering. Dit zet een nieuwe prestatiebenchmark onder modellen van vergelijkbare grootte en biedt een schaalbaar platform voor het bouwen van agentische, multimodale AI-systemen.

Nieuwsbron

Z.ai lanceert open source GLM-4.6V, een native, tool-aanroepend visiemodel voor multimodaal redeneren

Licenties en bedrijfsgebruik

Architectuur en technische mogelijkheden

Gebruik van native multimodale tools

Hoogwaardige benchmarks ten opzichte van andere modellen van vergelijkbare grootte

Frontend-automatisering en lange-contextworkflows

Training en versterkingsleren

Prijzen (API)

Eerdere releases: GLM‑4.5-serie en Enterprise-applicaties

Implicaties voor het ecosysteem

Conclusie voor bedrijfsleiders

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Weven is binnen! Update uw garderobe met deze door de redactie goedgekeurde keuzes

Diepvriestemperaturen strandden duizenden mensen in Noord-Finland

Releaseschema ‘It: Welcome to Derry’: wanneer komt aflevering 5 uit?

Tesla plaagt de eerste cybercab die van de productielijn rolt