De afgelopen twee jaar hebben bedrijven die open-weight-modellen evalueerden met moeilijke afwegingen te maken gehad. De Gemma-productlijn van Google levert consequent sterke prestaties, maar aangepaste licenties (met gebruiksbeperkingen en voorwaarden die Google naar believen kan bijwerken) drijven veel teams ertoe om voor Alibaba’s Mistral of Qwen te kiezen. Juridische toetsing zorgt voor wrijving. Complianceteams signaleren randgevallen. En hoe krachtig de Gemma 3 ook is, ‘open’ met een asterisk is niet hetzelfde als open.
Juweeltje 4 die wrijving volledig elimineren. De nieuwste reeks open modellen van Google DeepMind wordt geleverd met bepaalde standaarden Apache 2.0-licentie – dezelfde tolerante term die wordt gebruikt door Qwen, Mistral, Arcee en het grootste deel van het open-weight ecosysteem.
Er zijn geen speciale clausules, geen bepalingen over “schadelijk gebruik” die juridische interpretatie vereisen, geen beperkingen op herdistributie of commerciële toepassing. Voor zakelijke teams die hebben gewacht tot Google meespeelt met dezelfde licentievoorwaarden als andere teams, is het wachten voorbij.
De timing is erg belangrijk. Toen sommige Chinese AI-laboratoria (met name de nieuwste Qwen-modellen van Alibaba, de Qwen3.5 Omni en Qwen 3.6 Plus) zich begonnen terug te trekken van volledig open releases voor hun nieuwste modellen, bewoog Google zich in de tegenovergestelde richting: ze openden hun meest capabele Gemma-release terwijl ze expliciet vermeldden dat de architectuur was overgenomen van de commerciële advertenties. Tweeling 3 onderzoek.
Vier modellen, twee niveaus: van rand tot werkstation in één suite
De Gemma 4 wordt geleverd in vier verschillende modellen, georganiseerd in twee implementatieniveaus. Het niveau “werkstation” omvat a Parameterdicht model 31B en een Expertmixmodel 26B A4B — ondersteunt tekst- en beeldinvoer met een contextvenster van 256 duizend tokens. Het “rand”-niveau bestaat uit E2B En E4Bcompact model ontworpen voor mobiele telefoons, embedded apparaten en laptops, met ondersteuning voor tekst, afbeeldingen en audio met een 128K token-contextvenster.
De naamgevingsconventie vereist wat uitpakken. Het voorvoegsel “E” geeft “effectieve parameters” aan – E2B heeft 2,3 miljard effectieve parameters, maar 5,1 miljard in totaal, omdat elke decoderlaag zijn eigen kleine inbeddingstabel heeft via een techniek genaamd Google Inbedding per laag (PLE). Deze tabellen zijn groot op schijf, maar goedkoop om te berekenen. Daarom werkt dit model als 2B, maar is het technisch gezien zwaarder.
De “A” in 26B A4B staat voor “actieve parameters” – slechts 3,8 miljard van de in totaal 25,2 miljard parameters van het MoE-model worden geactiveerd tijdens gevolgtrekking, wat betekent dat het ongeveer 26B-klasse-intelligentie biedt tegen rekenkosten die vergelijkbaar zijn met die van het 4B-model.
Voor IT-leiders die de GPU-vereisten meten, betekent dit flexibiliteit in de implementatie. MoE-modellen kunnen draaien op GPU’s van consumentenkwaliteit en zullen snel verschijnen in tools als Ollama en LM Studio. Het compacte 31B-model vereist meer hoofdruimte – denk aan NVIDIA H100 of RTX 6000 Pro voor ongekwantiseerde gevolgtrekkingen – maar Google levert ook Quantization Aware Training (QAT)-controlepunt. om de kwaliteit met een lagere precisie te behouden. Op Google Cloud kunnen beide werkstationmodellen nu in een volledig serverloze configuratie draaien via Cloud-run met een NVIDIA RTX Pro 6000 GPU, die bij inactiviteit naar nul draait.
Weddenschap Ministerie van Milieu: 128 kleine experts om gevolgtrekkingskosten te besparen
De architectuurkeuze in het 26B A4B-model verdient speciale aandacht van het team dat de economische aspecten van gevolgtrekking evalueert. In plaats van het patroon te volgen van recente grote MoE-modellen waarbij gebruik werd gemaakt van een handvol grote experts, koos Google ervoor om dat patroon te volgen 128 kleine expertsactiveert er acht per token plus één expert die altijd samen actief is. Het resultaat is een model dat concurrerend presteert met compacte modellen in het 27B-31B-bereik, terwijl het tijdens gevolgtrekking ongeveer dezelfde snelheid heeft als het 4B-model.
Dit is niet alleen een nieuwsgierigheidsbenchmark; het heeft een directe invloed op de servicekosten. Een model dat klasse 27B-redenering levert bij klasse 4B-doorvoer betekent minder GPU’s, lagere latentie en goedkopere gevolgtrekkingen per token in de productie. Voor organisaties die codeerassistenten, documentverwerkingspijplijnen of multi-loop agentworkflows gebruiken, is de MoE-variant wellicht de meest praktische keuze in de suite.
Beide werkstationmodellen gebruiken een hybride aandachtsmechanismen waarbij de lokale ‘sliding window’-aandacht wordt afgewisseld met volledige mondiale aandacht, waarbij de laatste laag altijd globaal is. Dit ontwerp maakt 256K contextvensters mogelijk terwijl het geheugengebruik onder controle blijft – een belangrijke overweging voor teams die lange documenten, codebases of gesprekken met meerdere agenten verwerken.
Native multimodaliteit: Visie-, audio- en functie-oproepen worden helemaal opnieuw opgebouwd
Eerdere generaties open modellen behandelden multimodaliteit doorgaans als een add-on. De vision-encoder is ingebouwd in de tekstbackbone. Voor audio is een extern ASR-kanaal nodig, zoals Whisper. Functieaanroepen zijn afhankelijk van snelle engineering en de hoop dat het model zal samenwerken. Gemma 4 integreert al deze mogelijkheden op architectonisch niveau.
Alle vier de modellen hanteren beeldinvoer met variabele beeldverhouding met een configureerbaar visueel tokenbudget – een aanzienlijke verbetering ten opzichte van de oudere Gemma 3n vision-encoder, die moeite had met OCR en documentbegrip. De nieuwe encoder ondersteunt budgetten variërend van 70 tot 1.120 tokens per afbeelding, waardoor ontwikkelaars details kunnen inruilen voor berekeningen, afhankelijk van de taak.
Het lagere budget werkt voor classificatie en tekstgeneratie; hogere budgetten kunnen OCR, documentparsing en gedetailleerde visuele analyse verwerken. Multi-beeld- en video-invoer (verwerkt als een reeks frames) wordt standaard ondersteund, waardoor visueel redeneren over meerdere documenten of schermafbeeldingen mogelijk wordt.
Dubbelrandmodel toegevoegd native audioverwerking — automatische spraakherkenning en vertaalde spraak-naar-tekst, allemaal op het apparaat. De audio-encoder is gecomprimeerd tot 305 miljoen parameters, vergeleken met 681 miljoen in de Gemma 3n, terwijl de frameduur is teruggebracht van 160 ms naar 40 ms voor een responsievere transcriptie. Voor teams die voice-first-applicaties bouwen die data lokaal moeten houden – bijvoorbeeld gezondheidszorg, buitendienst of meertalige klantinteracties – is het uitvoeren van ASR-, vertaling-, redeneer- en functieaanroepen in één model op mobiele of edge-apparaten een echte architecturale vereenvoudiging.
Functie oproep is ook native op alle vier de modellen, gebaseerd op onderzoek van Google FunctieGemma eind vorig jaar uitgebracht. In tegenstelling tot eerdere benaderingen die afhankelijk waren van het volgen van instructies om het model over te halen om gestructureerde tools te gebruiken, worden de functieaanroepen van Gemma 4 vanaf het begin in het model getraind – geoptimaliseerd voor multi-round agentstromen met meerdere tools. Dit komt naar voren in agentbenchmarks, maar wat nog belangrijker is, het vermindert de technische overhead die bedrijfsteams doorgaans oplopen bij het bouwen van agenten die de tool gebruiken.
Benchmarks in context: wanneer Gemma 4 in een druk veld belandt
Deze referentiecijfers laten een duidelijk beeld zien van de generatieverbetering. Solide model scoort 31B 89,2% vinden 2026 leuk (rigoureuze test voor wiskundig redeneren), 80,0% op LiveCodeBench v6en betreffende een De ELO-codesterkte is 2.150 – cijfers die nog niet zo lang geleden toonaangevend zouden zijn geweest vanuit een eigen model. In visie bereikte MMMU Pro 76,9% en MATH-Vision 85,6%.
Ter vergelijking: de Gemma 3 27B scoorde 20,8% in AIME en 29,1% in LiveCodeBench zonder denkmodus.
Het model van het Ministerie van Milieu registreerde vrijwel identieke resultaten: 88,3% op AIME 2026, 77,1% op LiveCodeBench en 82,3% op GPQA Diamond – een maatstaf voor wetenschappelijk redeneren op universitair niveau. De prestatiekloof tussen KLH en dichte varianten is niet erg groot gezien het aanzienlijke gevolgkostenvoordeel van de KLH-architectuur.
Edge-modellen blinken uit boven hun gewichtsklasse. E4B behaalde 42,5% op AIME 2026 en 52,0% op LiveCodeBench – sterk voor een model dat op een T4 GPU draait. E2B, dat nog kleiner is, beheert respectievelijk 37,5% en 44,0%. Beide presteren aanzienlijk beter dan de Gemma 3 27B (no brainer) op de meeste benchmarks, ondanks hun kleine formaat, dankzij hun ingebouwde redeneervermogen.
Deze cijfers moeten nauwlettend in de gaten worden gehouden gezien de steeds competitievere concurrentie in de sector met open gewichten. De Qwen 3.5, GLM-5 en Kimi K2.5 concurreren allemaal agressief in dit parameterbereik, en het veld beweegt snel. Wat Gemma 4 onderscheidt is niet één enkele maatstaf, maar eerder een combinatie daarvan: krachtig redeneren, native multimodaliteit voor tekst, beeld en audio, functieaanroepen, 256K-contexten en echt tolerante licenties – alles in één reeks modellen met implementatieopties van edge-apparaten tot serverloos in de cloud.
Waar ondernemingsteams vervolgens op moeten letten
Google brengt vooraf getrainde basismodellen en aangepaste varianten met instructies uit, wat belangrijk is voor organisaties die aanpassingen willen maken voor specifieke domeinen. Het basismodel van Gemma is historisch gezien een sterke basis geweest voor training op maat, en de Apache 2.0-licentie neemt nu elke onduidelijkheid weg over de vraag of verbeterde derivaten commercieel kunnen worden geïmplementeerd.
De serverloze implementatieoptie via GPU-compatibele Cloud Run is de moeite van het onderzoeken waard voor teams die behoefte hebben aan nulschaal-inferentiecapaciteit. Alleen betalen voor de daadwerkelijke rekenkracht tijdens de inferentie (in plaats van altijd ingeschakelde GPU-instanties te behouden) kan de economische aspecten van het inzetten van open modellen in de productie aanzienlijk veranderen, vooral voor interne tools en toepassingen met minder verkeer.
Google heeft laten doorschemeren dat dit misschien niet de volledige Gemma 4-familie is, en dat er waarschijnlijk nog meer modelgroottes zullen volgen. Maar de combinatie die vandaag de dag beschikbaar is – een redeneermodel van werkstationklasse en een multimodaal model van edge-klasse, allemaal gebruikmakend van Apache 2.0, allemaal ontleend aan Gemini 3-onderzoek – vertegenwoordigt de meest uitgebreide open modelrelease die Google ooit heeft uitgebracht. Voor bedrijfsteams die hebben gewacht op het open model van Google om te concurreren op het gebied van licenties en prestaties, kan de evaluatie eindelijk beginnen zonder eerst contact op te nemen met de juridische afdeling.



