Bedrijven kunnen nu de kracht benutten van grote taalmodellen die de laatste stand van de techniek benaderen Gemini 3 Pro van Googlemaar tegen lagere kosten en hogere snelheid, zegen De nieuw uitgebrachte Gemini 3 Flash.
Dit model sluit zich aan bij het vlaggenschip Gemini 3 Pro, Gemini 3 Deep Think en Gemini Agent, die allemaal vorige maand werden aangekondigd en uitgebracht.
Gemini 3 Flash, nu beschikbaar in Gemini Enterprise, Google Antigravity, Gemini CLI, AI Studio en preview in Vertex AI, verwerkt informatie vrijwel in realtime en helpt bij het bouwen van snelle, responsieve agentapplicaties.
Bedrijf zei hij in een blogpost dat Gemini 3 Flash “bouwt op een reeks modellen die al geliefd zijn bij ontwikkelaars en ondernemingen, geoptimaliseerd voor hoogfrequente workflows die snelheid vereisen, zonder in te boeten aan kwaliteit.
Dit model is ook de standaard voor AI-modus in Google Zoeken en de Gemini-app.
Tulsee Doshi, senior directeur productmanagement van het Gemini-team, zei in een aparte blogpost dat het model “laat zien dat snelheid en schaal niet ten koste hoeven te gaan van intelligentie.”
“Gemini 3 Flash is gebouwd voor iteratieve ontwikkeling en biedt codeerprestaties van Gemini 3 Pro-klasse met lage latentie – het is in staat om taken snel te bedenken en uit te voeren in een hoogfrequente workflow”, aldus Doshi. “Het biedt de ideale balans tussen agentcodering, productieklare systemen en responsieve interactieve applicaties.”
De eerste implementatie door gespecialiseerde bedrijven bewijst de betrouwbaarheid van dit model in gebieden met een hoog risico. Harvey, een AI-platform voor advocatenkantoren, rapporteerde een stijging van 7% in de redenering op hun interne ‘BigLaw Bench’, terwijl Resemble AI ontdekte dat Gemini 3 Flash complexe forensische gegevens voor deepfake-detectie 4x sneller kon verwerken dan Gemini 2.5 Pro. Dit is niet alleen een snelheidsverhoging; ze maken ‘near real-time’ workflows mogelijk die voorheen onmogelijk waren.
Efficiënter met lagere kosten
Enterprise AI-bouwers worden zich hiervan steeds meer bewust kosten voor het uitvoeren van een AI-modelvooral wanneer ze belanghebbenden proberen te overtuigen meer budget te steken in agentworkflows die op dure modellen draaien. De organisatie is omgedraaid kleinere modellen of fluiten, richt zich op open modellen of anders onderzoeks- en stimuleringstechnieken om de stijgende AI-kosten te helpen beheersen.
Voor het bedrijf is de grootste waardepropositie van Gemini 3 Flash dat het hetzelfde niveau aan geavanceerde multimodale mogelijkheden biedt, zoals complexe videoanalyse en data-extractie, als de grotere Gemini-versie, maar dan veel sneller en goedkoper.
Hoewel het interne materiaal van Google een drievoudige snelheidsverhoging ten opzichte van de 2.5 Pro-serie benadrukt, zijn gegevens van onafhankelijke bronnen benchmarkbedrijf Artificial Analytics het toevoegen van een belangrijke nuancelaag.
In de laatste pre-releasetest van de organisatie registreerde Gemini Flash Preview 3 een ruwe doorvoer van 218 uitvoertokens per seconde. Dit maakt het 22% langzamer dan de vorige ‘niet-redenerende’ Gemini 2.5 Flash, maar nog steeds veel sneller dan zijn concurrenten, waaronder OpenAI’s hoogwaardige GPT-5.1 (125 t/s) en DeepSeek V3.2-redenering (30 t/s).
Het meest opvallende is dat Artificial Analysis Gemini 3 Flash heeft uitgeroepen tot de nieuwe leider in de AA-Omniscience kennisbenchmark, waarmee de hoogste kennisnauwkeurigheid wordt bereikt van alle tot nu toe geteste modellen. Deze intelligentie gaat echter gepaard met een ‘redeneringsbelasting’: het model verdubbelt het tokengebruik ruimschoots in vergelijking met de Flash 2.5-serie bij het verwerken van complexe indices.
Deze hoge tokendichtheid wordt gecompenseerd door de agressieve prijzen van Google: bij toegang via de Gemini API kost Gemini 3 Flash $0,50 per 1 miljoen inputtokens, vergeleken met $1,25/1 miljoen inputtokens voor Gemini 2.5 Pro, en $3/1 miljoen outputtokens, vergeleken met $10/1 miljoen outputtokens voor Gemini 2.5 Pro. Hierdoor kan de Gemini 3 Flash de titel van meest kosteneffectieve model claimen vanwege zijn intelligentieniveau, ondanks dat het een van de meest spraakzame modellen is in termen van onbewerkt tokenvolume. Hier ziet u hoe het zich verhoudt tot concurrerende LLM-aanbiedingen:
|
Model |
Invoer (/1M) |
Uitgang (/1M) |
Totale kosten |
Bron |
|
Qwen3 Turbo |
$ 0,05 |
$ 0,20 |
$ 0,25 |
|
|
Grok 4.1 Snel (redenering) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
Grok 4.1 Snel (niet redenerend) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
diepe chat (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
deepseek-reasoner (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
Qwen3 Plus |
$ 0,40 |
$ 1,20 |
$ 1,60 |
|
|
ERNIE 5.0 |
$ 0,85 |
$ 3,40 |
$ 4,25 |
|
|
Gemini 3 Flash-voorbeeld |
$ 0,50 |
$ 3,00 |
$ 3,50 |
|
|
Claude Haiku 4.5 |
$ 1,00 |
$ 5,00 |
$ 6,00 |
|
|
Qwen-Max |
$ 1,60 |
$ 6,40 |
$ 8,00 |
|
|
Gemini 3 Pro (≤200K) |
$ 2,00 |
$ 12,00 |
$ 14,00 |
|
|
GPT-5.2 |
$ 1,75 |
$ 14,00 |
$ 15,75 |
|
|
Claude Sonnetten 4.5 |
$ 3,00 |
$ 15,00 |
$ 18,00 |
|
|
Gemini 3 Pro (>200K) |
$ 4,00 |
$ 18,00 |
$ 22,00 |
|
|
Taak sluiten 4.5 |
$ 5,00 |
$ 25,00 |
$ 30,00 |
|
|
GPT-5.2 Pro |
$ 21,00 |
$ 168,00 |
$ 189,00 |
Meer manieren om te besparen
Maar ontwikkelaars en zakelijke gebruikers kunnen de kosten verder verlagen door de vertragingen te elimineren die vaak bij de meeste grote modellen voorkomen, waardoor het tokengebruik toeneemt. Google zegt dat het model “in staat is om te moduleren hoeveel het denkt”, dus gebruikt het meer denkwerk en dus meer tokens voor complexere taken dan snelle opdrachten. Het bedrijf merkt op dat Gemini 3 Flash 30% minder tokens gebruikt dan Gemini 2.5 Pro.
Om dit nieuwe redeneervermogen in evenwicht te brengen met de strenge latentievereisten van het bedrijf, heeft Google een ‘Thinking Level’-parameter geïntroduceerd. Ontwikkelaars kunnen schakelen tussen ‘Laag’ (om de kosten en latentie voor eenvoudige chattaken te minimaliseren) en ‘Hoog’ (om de diepgang van de redenering voor complexe gegevensextractie te maximaliseren). Dankzij deze gedetailleerde controle kunnen teams ‘variabele snelheid’-applicaties bouwen die alleen dure ‘gedachte-tokens’ gebruiken als een probleem echt een PhD-niveau vereist.
Het economische verhaal is meer dan simpele symbolische prijzen. Met de toevoeging van Context Caching-standaarden kunnen bedrijven die grote, statische datasets verwerken, zoals volledige juridische bibliotheken of codebase-repository’s, de kosten voor repetitieve zoekopdrachten met maar liefst 90% verlagen. In combinatie met de 50% korting van de Batch API dalen de totale eigendomskosten van door Gemini aangedreven agenten aanzienlijk onder de drempel van de grensmodellen van concurrenten.
“Gemini 3 Flash levert uitzonderlijke prestaties bij codeer- en agenttaken, gecombineerd met een lagere prijs, waardoor teams geavanceerde redeneerkosten kunnen toepassen op processen met een hoog volume zonder op knelpunten te stuiten”, aldus Google.
Door een model aan te bieden dat sterke multimodale prestaties levert tegen een meer betaalbare prijs, zegt Google dat bedrijven die hun AI-uitgaven onder controle willen houden, voor dit model moeten kiezen, vooral de Gemini 3 Flash.
Sterke benchmarkprestaties
Maar hoe verhoudt de Gemini 3 Flash zich qua prestaties tot andere modellen?
Doshi zegt dat het model een score van 78% behaalde op de SWE-Bench VERIFIED benchmarktest voor codeeragenten, en beter presteerde dan de vorige Gemini 2.5-familie en de nieuwere Gemini 3 Pro!
Voor bedrijven betekent dit dat grootschalig softwareonderhoud en het oplossen van bugs nu kunnen worden verplaatst naar een model dat sneller en goedkoper is dan het vorige vlaggenschipmodel, zonder vermindering van de codekwaliteit.
Ook op andere benchmarks presteerde dit model sterk, met een score van 81,2% op de MMMU Pro benchmark, vergelijkbaar met de Gemini 3 Pro.
Hoewel de meeste modellen van het Flash-type expliciet zijn geoptimaliseerd voor korte, snelle taken zoals het genereren van code, beweert Google dat de prestaties van Gemini 3 Flash “op het gebied van redeneren, gereedschapsgebruik en multimodale mogelijkheden ideaal zijn voor ontwikkelaars die complexere video-analyses, data-extractie en visuele vragen en antwoorden willen uitvoeren, wat betekent dat het slimmere toepassingen mogelijk kan maken – zoals in-game assistenten of A/B-testexperimenten – die snelle antwoorden en diepgaande redeneringen vereisen.”
Eerste indrukken van early adopters
Tot nu toe zijn early adopters erg onder de indruk van dit model, vooral van de benchmarkprestaties.
Wat dit betekent voor het gebruik van AI in bedrijven
Nu Gemini 3 Flash nu fungeert als de standaardengine in Google Zoeken en de Gemini-app, zijn we getuige van de ‘Flash-ificatie’ van grensverleggende intelligentie. Door redeneren op Pro-niveau tot de nieuwe basislijn te maken, zet Google een val voor langzamere gevestigde exploitanten.
Integratie in platforms als Google Antigravity laat zien dat Google niet alleen modellen verkoopt; ze verkopen infrastructuur aan autonome bedrijven.
Nu ontwikkelaars gaan werken met 3x hogere snelheden en 90% korting op contextcaches, wordt de ‘Gemini-first’-strategie een overtuigend financieel argument. In de snelle race om AI-dominantie kan de Gemini 3 Flash het model zijn dat eindelijk de ‘codeersfeer’ verandert van een experimentele hobby in een productieklare realiteit.


