Eind vorig jaar pakte Google de kroon van het krachtigste AI-model ter wereld Gemini 3 Pro-lancering – om binnen enkele weken te worden overtroffen door OpenAI en Anthropic die nieuwe modellen uitbrengen, een veel voorkomend verschijnsel in het zeer competitieve AI-landschap.
Nu heeft Google zijn troon opnieuw opgeëist de nieuwste versie van het vlaggenschipmodel: Gemini 3.1 Prois gepositioneerd als een slimmere basis voor taken waarbij eenvoudige reacties onvoldoende zijn, gericht op wetenschappelijke, onderzoeks- en technische workflows die diepgaande planning en synthese vereisen.
Al, evaluatie door een extern bedrijf Artificial Analytics laat zien dat Google Gemini 3.1 Pro op de voorgrond is gekomen en opnieuw het krachtigste en best presterende AI-model ter wereld is.
Een enorme sprong in de kernredenering
De belangrijkste vooruitgang in Gemini 3.1 Pro ligt in de prestaties op strenge logische benchmarks. Het meest opvallende was dat het model een geverifieerde score van 77,1% behaalde op ARC-AGI-2.
Deze specifieke benchmark is ontworpen om het vermogen van een model te evalueren om nieuwe logische patronen op te lossen die tijdens de training niet zijn tegengekomen.
Deze resultaten vertegenwoordigen meer dan het dubbele van de redelijke prestaties van het vorige Gemini 3 Pro-model.
Naast abstracte logica laten interne benchmarks zien dat 3.1 Pro zeer concurrerend is in nichedomeinen:
-
Wetenschappelijke kennis: Het scoorde 94,3% in GPQA Diamond.
-
Codering: Het behaalde een Elo van 2887 op LiveCodeBench Pro en scoorde 80,6% op SWE-Bench Verified.
-
Multimodaal begrip: Het bereikte 92,6% in MMMLU.
Deze technische vooruitgang is niet alleen maar incrementeel; ze vertegenwoordigen verbeteringen in de manier waarop het model omgaat met “denkende” tokens en langetermijntaken, waardoor een betrouwbaardere basis wordt geboden voor ontwikkelaars die autonome agenten bouwen.
Verbeterde trillingscodering en 3D-synthese
Google demonstreerde het nut van dit model door middel van ‘toegepaste intelligentie’, waarbij de focus werd verlegd van chatinterfaces naar functionele output.
Een van de meest opvallende kenmerken is de mogelijkheid van het model om rechtstreeks vanuit tekstopdrachten “trillingsgecodeerde” geanimeerde SVG’s te genereren. Omdat ze op code zijn gebaseerd in plaats van op pixels, blijven ze schaalbaar en behouden ze een kleine bestandsgrootte in vergelijking met traditionele video’s, wat resulteert in veel gedetailleerdere, duidelijkere en professionelere beelden voor websites, presentaties en andere bedrijfstoepassingen.
Andere tentoongestelde toepassingen zijn onder meer:
-
Synthese van complexe systemen: Het model configureert met succes openbare telemetriestromen om een live space-dashboard te bouwen dat de baan van het internationale ruimtestation visualiseert.
-
Interactief ontwerp: In één demo codeerde 3.1 Pro complexe 3D-spreeuwgeruisen die gebruikers konden manipuleren via handtracking, vergezeld van een generatieve audioscore.
-
Creatieve codering: Het model vertaalt de sfeervolle thema’s van Emily Brontë Wuthering Hoogten een functioneel en modern webontwerp zijn, dat het vermogen demonstreert om te redeneren op basis van toon en stijl, en niet alleen op basis van letterlijke tekst.
Bedrijfsimpact en maatschappelijke reactie
De partners van het bedrijf zijn begonnen met het integreren van een preview-versie van 3.1 Pro, die duidelijke verbeteringen op het gebied van betrouwbaarheid en efficiëntie rapporteert.
Vladislav Tankov, directeur AI bij JetBrains, merkte een kwaliteitsverbetering van 15% op ten opzichte van de vorige versie, en stelde dat het model “krachtiger, sneller … en efficiënter is, en minder uitvoertokens vereist”. Andere reacties uit de sector zijn onder meer:
-
Databricks: CTO Hanlin Tang meldde dat het model “best-in-class resultaten” behaalde op OfficeQA, een benchmark voor gegrond redeneren over tabellarische en ongestructureerde data.
-
Winkelwagen: Medeoprichter Andrew Carr benadrukte het “aanzienlijk verbeterde begrip van 3D-transformaties” van het model en merkte op dat het een al lang bestaande bug in de rotatiesequentie in de 3D-animatiepijplijn oplost.
-
Hostinger Horizon: Hoofd Product Dainius Kavoliunas merkte op dat het model de ‘sfeer’ achter commando’s begrijpt en de intentie vertaalt in stijlcodes die accuraat zijn voor niet-ontwikkelaars.
Prijzen, licenties en beschikbaarheid
Voor ontwikkelaars is het meest opvallende aspect van de 3.1 Pro-release de verhouding tussen ‘redeneren en dollars’. Toen de Gemini 3 Pro werd gelanceerd, werd deze in de midden- tot hoge prijsklasse geplaatst met $ 2,00 per miljoen invoertokens voor de standaardvraag. Gemini 3.1 Pro handhaaft dezelfde prijsstructuur en biedt effectief enorme prestatieverbeteringen zonder extra kosten voor API-gebruikers.
-
Invoerprijs: $ 2,00 per 1 miljoen tokens voor verzoeken tot 200K; $ 4,00 per tokens van 1 miljoen voor verzoeken van meer dan 200.000.
-
Outputprijs: $ 12,00 per 1 miljoen tokens voor verzoeken tot 200.000; $ 18,00 per 1 miljoen tokens voor verzoeken van meer dan 200.000.
-
Contextcaching: Er wordt $0,20 tot $0,40 per 1 miljoen tokens in rekening gebracht, afhankelijk van de gevraagde grootte, plus opslagkosten van $4,50 per 1 miljoen tokens per uur.
-
Zoekplatform: 5.000 verzoeken per maand zijn gratis, gevolgd door een vergoeding van $ 14 per 1.000 zoekopdrachten.
Voor consumenten wordt dit model uitgerold in de Gemini- en NotebookLM-apps met hogere limieten voor Google AI Pro- en Ultra-klanten.
Gevolgen voor licenties
Als eigendomsmodel aangeboden via Vertex Studio op Google Cloud en het Gemini-API3.1 Pro volgt een standaard commercieel SaaS-model (Software as a Service) en is geen open source-licentie.
Voor zakelijke gebruikers biedt dit ‘gefundeerd redeneren’ binnen de beveiligingsgrenzen van Vertex AI, waardoor bedrijven met vertrouwen op hun eigen gegevens kunnen werken.
Met de status ‘Preview’ kan Google de beveiliging en prestaties van het model verbeteren voordat het algemeen beschikbaar komt, wat gebruikelijk is bij AI-implementaties met een hoog risico.
Door de kernredenering en aangepaste benchmarks zoals ARC-AGI-2 te verdubbelen, geeft Google aan dat de volgende fase van de AI-race zal worden gewonnen door modellen die over een probleem kunnen nadenken en niet alleen het volgende woord kunnen voorspellen.



