Home Nieuws z.ai’s open source GLM-5 bereikt record-lage hallucinatiepercentages en maakt gebruik van een...

z.ai’s open source GLM-5 bereikt record-lage hallucinatiepercentages en maakt gebruik van een nieuwe RL ‘slijm’-techniek

2
0
z.ai’s open source GLM-5 bereikt record-lage hallucinatiepercentages en maakt gebruik van een nieuwe RL ‘slijm’-techniek

De Chinese AI-startup Zhupai, oftewel z.ai, is deze week terug met een verbluffend nieuw groottaalmodel: GLM-5.

Het is het nieuwste in de doorlopende en voortdurend indrukwekkende GLM-serie van z.ai, behoudt de open source MIT-licentie – perfect voor bedrijfsimplementaties – en bereikt, als een van de opmerkelijke prestaties, het laagste niveau van hallucinaties op onafhankelijke apparaten. Kunstmatige analyse-intelligentie-index v4.0.

Met een score van -1 op de AA-Omniscience Index – wat een enorme verbetering van 35 punten ten opzichte van zijn voorganger betekent – ​​is GLM-5 nu de leider in de hele AI-industrie, inclusief Amerikaanse concurrenten als Google, OpenAI en Anthropic, wat betreft de betrouwbaarheid van kennis door te weten wanneer afstand moet worden genomen versus het verzinnen van informatie.

Naast zijn redeneervermogen is GLM-5 gebouwd voor hoogwaardig kenniswerk. Het beschikt over native “Agent Mode”-mogelijkheden waarmee het ruwe instructies of live bronmateriaal kan omzetten in professionele kantoordocumenten, inclusief kant-en-klare documenten. .docx, .pdfEn .xlsx bestanden.

Of het nu gaat om het produceren van gedetailleerde financiële rapporten, sponsorvoorstellen voor middelbare scholen of complexe spreadsheets, GLM-5 levert resultaten in een realistisch formaat dat rechtstreeks in de bedrijfsworkflows kan worden geïntegreerd.

De prijsstelling is ook zeer ontwrichtend, met ongeveer $0,80 per miljoen inputtokens en $2,56 per miljoen outputtokens, ongeveer 6x goedkoper dan eigen concurrenten zoals Claude Opus 4.6, waardoor geavanceerde agent-engineering kosteneffectiever dan ooit is. Dit is wat andere besluitvormers van bedrijven moeten weten over het model en de training ervan.

Technologie: verbeter de efficiëntie van agenten

De essentie van GLM-5 is een enorme sprong in ruwe parameters. Het model schaalt van 355 miljard GLM-4.5-parameters naar 744 miljard parameters, waarbij 40 miljard actief per token in de Mixture-of-Experts (MoE)-architectuur. Deze groei werd ondersteund door een toename van pre-trainingsgegevens naar 28,5T tokens.

Om trainingsinefficiënties van deze omvang aan te pakken, ontwikkelde Zai de “slijm”, een nieuwe infrastructuur voor asynchrone versterkingsleren (RL).

Traditionele RL heeft vaak last van ‘long tail’-knelpunten; Slime doorbreekt deze stap door trajecten onafhankelijk te laten genereren, waardoor de gedetailleerde iteratie mogelijk wordt die nodig is voor complex agentengedrag.

Door optimalisaties op systeemniveau zoals Active Partial Rollouts (APRIL) te integreren, overwint slime generatieknelpunten die doorgaans meer dan 90% van de RL-trainingstijd in beslag nemen, waardoor de iteratiecycli voor complexe agenttaken aanzienlijk worden versneld.

Het ontwerp van het raamwerk is gebaseerd op een tripartiet modulair systeem: een krachtige trainingsmodule aangedreven door Megatron-LM, een lanceermodule die SGLang en aangepaste routers gebruikt voor het genereren van data met hoge doorvoer, en een gecentraliseerde databuffer die snelle initialisatie en lanceringsopslag beheert.

Door een verifieerbare adaptieve omgeving en een feedbackloop met meerdere rondes mogelijk te maken, biedt slime de sterke basis en hoge doorvoer die nodig zijn om AI over te zetten van eenvoudige chat-interacties naar rigoureuze systeemtechniek met een lange horizon.

Om implementaties beheersbaar te houden, integreert GLM-5 DeepSeek Sparse Attention (DSA), waardoor 200.000 contextcapaciteit behouden blijft terwijl de kosten drastisch worden verlaagd.

Kenniswerk van begin tot eind

Zai beschouwt GLM-5 als een ‘kantoortool’ voor het AGI-tijdperk. Terwijl eerdere modellen zich richtten op snapshots, is de GLM-5 gebouwd om kant-en-klare documenten te leveren.

Het kan zelfstandig opdrachten omzetten naar bestanden in .docx-, .pdf- en .xlsx-indeling, van financiële rapporten tot sponsorvoorstellen.

In de praktijk betekent dit dat het model doelen op hoog niveau kan opsplitsen in uitvoerbare subtaken en ‘Agentetic Engineering’ kan uitvoeren, dat wil zeggen dat mensen kwaliteitspoorten definiëren terwijl AI de uitvoering afhandelt.

Hoge prestaties

Volgens de GLM-5-benchmark is dit het krachtigste nieuwe open source-model ter wereld Kunstmatige analyseovertreft zijn Chinese rivaal De nieuwe Kimi K2.5 van Moonshot dat twee weken geleden werd gepubliceerd, blijkt dat Chinese AI-bedrijven op het punt staan ​​hun achterstand op de veel beter uitgeruste westerse concurrenten in te halen.

Gebaseerd op de vandaag gedeelde z.ai-materialen, scoort GLM-5 bijna state-of-the-art in verschillende belangrijke benchmarks:

Geverifieerde SWE-bank: De GLM-5 scoorde 77,8, stond bovenaan de Gemini 3 Pro (76,2) en kwam dichter bij de Claude Opus 4.6 (80,9).

Verkopersbank 2: In simulaties van het runnen van een bedrijf stond GLM-5 op nummer 1 onder open source-modellen met een eindsaldo van $ 4.432,12.

Z.ai GLM-5-benchmark

GLM-5-benchmark van z.ai

Afgezien van de prestaties ondermijnt de GLM-5 op agressieve wijze de markt. Beschikbaar op OpenRouter vanaf 11 februari 2026, de prijs bedraagt ​​ongeveer $0,80 – $1,00 per miljoen inputtokens en $2,56 – $3,20 per miljoen outputtokens. Het ligt in het middensegment vergeleken met andere toonaangevende LLM’s, maar op basis van de beste benchmarkingprestaties is het een zogenaamd “stelen”.

Model

Invoer (per 1 miljoen tokens)

Uitvoer (per 1 miljoen tokens)

Totale kosten (1 miljoen in + 1 miljoen uit)

Bron

Qwen3 Turbo

$ 0,05

$ 0,20

$ 0,25

Alibaba-wolk

Grok 4.1 Snel (redenering)

$ 0,20

$ 0,50

$ 0,70

xAI

Grok 4.1 Snel (niet redenerend)

$ 0,20

$ 0,50

$ 0,70

xAI

diepe chat (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

Diep zoeken

deepseek-reasoner (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

Diep zoeken

Gemini 3 Flash-voorbeeld

$ 0,50

$ 3,00

$ 3,50

Googlen

Kimi-k2.5

$ 0,60

$ 3,00

$ 3,60

Maanschot

GLM-5

$ 1,00

$ 3,20

$ 4,20

Z.ai

ERNIE 5.0

$ 0,85

$ 3,40

$ 4,25

Qianfan

Claude Haiku 4.5

$ 1,00

$ 5,00

$ 6,00

Antropisch

Qwen3-Max (23-01-2026)

$ 1,20

$ 6,00

$ 7,20

Alibaba-wolk

Gemini 3 Pro (≤200K)

$ 2,00

$ 12,00

$ 14,00

Googlen

GPT-5.2

$ 1,75

$ 14,00

$ 15,75

Open AI

Claude Sonnetten 4.5

$ 3,00

$ 15,00

$ 18,00

Antropisch

Gemini 3 Pro (>200K)

$ 4,00

$ 18,00

$ 22,00

Googlen

Taak sluiten 4.6

$ 5,00

$ 25,00

$ 30,00

Antropisch

GPT-5.2 Pro

$ 21,00

$ 168,00

$ 189,00

Open AI

Het is ongeveer 6x goedkoper voor input en bijna 10x goedkoper voor output dan Claude Opus 4.6 ($5/$25). Deze release bevestigt de geruchten dat Zhipu AI achter “Pony Alpha” zit, een stealth-model dat eerder de codeerbenchmarks in OpenRouter versloeg.

Ondanks de hoge benchmarks en lage kosten zijn echter niet alle early adopters enthousiast over dit model, omdat de hoge prestaties niet het hele verhaal vertellen.

Lukas Petersson, medeoprichter van de op veiligheid gerichte autonome AI-protocolstartup Andon Labs, commentaar op X: “Na uren lezen van het GLM-5-parcours: een zeer effectief model, maar zonder situationele gevoeligheid. Bereikt doelen door middel van agressieve tactieken, maar houdt geen rekening met de situatie of maakt geen gebruik van ervaring. Dit is beangstigend. Zo krijg je een paperclip-maximizer.”

“Paperclip Maximizer” verwijst naar een hypothetische situatie beschreven door Oxford-filosoof Nick Bostrom in 2003waar een AI of een andere autonome creatie onbedoeld leidt tot een apocalyptisch scenario of het uitsterven van de mens door schijnbaar onschadelijke instructies op te volgen – zoals het maximaliseren van het aantal geproduceerde paperclips – in extreme mate, waarbij alle noodzakelijke middelen naar mensen (of ander leven) worden omgeleid of het leven onmogelijk wordt gemaakt door zijn toewijding aan het vervullen van een ogenschijnlijk onschadelijk doel.

Moet uw bedrijf GLM-5 adopteren?

Bedrijven die willen ontsnappen aan de afhankelijkheid van leveranciers zullen de MIT GLM-5-licentie en de beschikbaarheid van open gewichten een aanzienlijk strategisch voordeel vinden. In tegenstelling tot closed source-concurrenten die intelligentie achter hun eigen muren houden, stelt GLM-5 organisaties in staat hun eigen front-end-intelligentie te hosten.

Adoptie verloopt niet zonder obstakels. De schaalparameter van de GLM-5 (744B) vereist zeer grote hardware die mogelijk onbereikbaar is voor kleine bedrijven die geen cloud of significante lokale GPU-clusters hebben.

Veiligheidsleiders moeten rekening houden met de geopolitieke implicaties van het vlaggenschipmodel van in China gevestigde laboratoria, vooral in gereguleerde sectoren waar de locatie en herkomst van gegevens nauwlettend worden gecontroleerd.

Bovendien brengt de verschuiving naar meer autonome AI-agenten nieuwe bestuursrisico’s met zich mee. Terwijl het model van ‘chat’ naar ‘werk’ evolueert, begint het autonoom te werken tussen applicaties en bestanden. Zonder sterke machtigingen voor alleen agenten en ‘human-in-the-loop’-kwaliteitspoorten die zijn ingesteld door dataleiders in ondernemingen, zal het risico op autonome fouten exponentieel toenemen.

Uiteindelijk is GLM-5 de juiste keuze voor organisaties die de capaciteit van een eenvoudige copiloot zijn ontgroeid en klaar zijn om een ​​echt autonoom kantoor te bouwen.

Het is voor ingenieurs die verouderde backends moeten herstructureren of slapeloze “zelfherstellende” pijplijnen nodig hebben.

Terwijl westerse laboratoria het ‘denken’ en de diepgang van de redenering blijven optimaliseren, optimaliseert Zai de uitvoering en schaalvergroting.

Bedrijven die momenteel de GLM-5 adopteren, kopen niet alleen het goedkopere model; ze wedden op een toekomst waarin de meest waardevolle AI degene is die een project kan voltooien zonder dat er twee keer om gevraagd wordt.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in