Home Nieuws Google Gemini 3.1 Pro eerste indrukken: ‘Deep Think Mini’ met redenen die...

Google Gemini 3.1 Pro eerste indrukken: ‘Deep Think Mini’ met redenen die op aanvraag kunnen worden aangepast

1
0
Google Gemini 3.1 Pro eerste indrukken: ‘Deep Think Mini’ met redenen die op aanvraag kunnen worden aangepast

De afgelopen drie maanden is de Google Gemini 3 Pro een van de meest capabele modellen geworden die er zijn. Maar in de snelle wereld van AI is drie maanden een leven lang – en concurrenten staan ​​niet stil.

Dat heeft Google eerder vandaag bekendgemaakt Tweeling 3.1 Proeen update die een belangrijke innovatie brengt in het krachtmodel van het werkpaard van het bedrijf: drie niveaus van aanpasbaar denken die er effectief een lichtgewicht versie van Google’s aangepaste Deep Think-redeneringssysteem van maken.

Deze release markeert de eerste keer dat Google een ‘punt één’-update voor het Gemini-model heeft uitgebracht, wat een verschuiving in de releasestrategie van het bedrijf aangeeft van periodieke uitrol van volledige versies naar frequentere incrementele upgrades. Nog belangrijker voor zakelijke AI-teams die hun modellenstapels evalueren, is dat het nieuwe drieledige denksysteem van 3.1 Pro – laag, gemiddeld en hoog – ontwikkelaars en IT-leiders één enkel model biedt dat hun redeneringsinspanningen dynamisch kan schalen, van snelle antwoorden op routinevragen tot diepgaande redeneersessies van meerdere minuten voor complexe problemen.

Dit model wordt nu als preview uitgerold in de Gemini API via Google AI StudioGemini CLI, Google Antigravity agent-ontwikkelingsplatform, Vertex AI, Gemini Enterprise, Android Studio, Gemini-consumentenapplicaties en NotebookLM.

Het ‘Deep Think Mini’-effect: aanpasbare redenering op aanvraag

Het belangrijkste kenmerk van Gemini 3.1 Pro is niet één enkel benchmarknummer; het is de introductie van een denksysteem op drie niveaus dat gebruikers volledige controle geeft over hoeveel rekenkracht het model in elke reactie investeert.

De Gemini 3 Pro biedt slechts twee denkmodi: laag en hoog. De nieuwe 3.1 Pro voegt een gemiddelde instelling toe (vergelijkbaar met de vorige hoge instelling) en, belangrijker nog, herziet de betekenis van ‘hoog’. Als de 3.1 Pro op de hoogste stand staat, gedraagt ​​hij zich als een “miniversie van Gemini Deep Think” – het voormalige aangepaste redeneermodel van het bedrijf zojuist vorige week bijgewerkt.

De implicaties voor de implementatie in bedrijven kunnen zeer aanzienlijk zijn. In plaats van verzoeken door te sturen naar verschillende specifieke modellen op basis van taakcomplexiteit – een gebruikelijk maar operationeel belastend patroon – kunnen organisaties nu één enkel modeleindpunt gebruiken en de diepgang van de overweging aanpassen op basis van de taak die voorhanden is. Het routinematig samenvatten van documenten kan worden uitgevoerd op een laag niveau met snelle reactietijden, terwijl complexe analytische taken kunnen worden opgeschaald naar een hoog denkniveau voor redeneren op een diep denkniveau.

Benchmarkprestaties: meer dan het dubbele van de redenering dan 3 Pro

De gepubliceerde benchmarks van Google laten dramatische verbeteringen zien, vooral op gebieden die verband houden met de redenering en capaciteiten van agenten.

Google Gemini 3.1 Pro benchmarkgrafiek. Krediet: Google

Op ARC-AGI-2de benchmark, die het vermogen van het model evalueert om nieuwe abstracte redeneerpatronen op te lossen, kreeg een score van 3,1 Pro 77,1% – meer dan het dubbele van de 31,1% behaald door de Gemini 3 Pro en ruim vóór Anthropic’s Sonnet 4.6 (58,3%) en Opus 4.6 (68,8%). Dit resultaat overtreft ook de GPT-5.2 van OpenAI (52,9%).

De voordelen strekken zich uit over de hele sector. Op De laatste test van de mensheideen rigoureuze benchmark voor academisch redeneren, de 3.1 Pro behaalde 44,4% zonder gereedschap, een stijging ten opzichte van 37,5% voor de 3 Pro en presteerde beter dan de Claude Sonnet 4.6 (33,2%) en Opus 4.6 (40,0%). Op GPQA-diamantWetenschappelijke kennisevaluatie, 3.1 Pro behaalde 94,3% en presteerde daarmee beter dan alle genoemde concurrenten.

De resultaten die vooral relevant worden voor AI-teams van ondernemingen liggen in benchmarks van agenten – namelijk evaluaties die meten hoe goed een model presteert wanneer het tools en uit meerdere stappen bestaande taken krijgt, het soort werk dat in toenemende mate de inzet van productie-AI dicteert.

Op Bankterminal 2.0Bij het evalueren van agentterminalcodering scoorde 3.1 Pro 68,5% vergeleken met 56,9% voor zijn voorganger. Op MCP-atlasbenchmark die meerstapsworkflows meet met behulp van Model Context Protocol, behaalde 3.1 Pro 69,2% – een verbetering van 15 punten ten opzichte van de 54,1% van 3 Pro en bijna 10 punten voorsprong op Claude en GPT-5.2. Enz Ontdek CompBij het testen van de webzoekmogelijkheden van agenten behaalde 3.1 Pro 85,9%, waarmee 3 Pro’s 59,2% overtroffen.

Waarom Google voor de ‘0.1’-release heeft gekozen – en wat deze aangeeft

Het versiebeheerbesluit zelf is het vermelden waard. Eerdere Gemini-releases volgden een patroon van gedateerde previews – verschillende 2.5-previews bijvoorbeeld, voordat ze algemeen verkrijgbaar waren. De keuze om deze update aan te duiden als 3.1 in plaats van een andere 3 Pro preview suggereert dat Google de verbeteringen als groot genoeg beschouwt om een ​​upgrade te rechtvaardigen, terwijl het ‘point one’-framework de verwachting wekt dat dit een evolutie is, en geen revolutie.

In de blogpost van Google staat dat 3.1 Pro rechtstreeks voortbouwt op lessen uit de Gemini Deep Think-serie, waarbij technieken uit eerdere en huidige versies worden gecombineerd. Deze benchmarks suggereren sterk dat versterkend leren een belangrijke rol heeft gespeeld bij dergelijke prestaties, vooral bij taken als ARC-AGI-2, coderingsbenchmarks en agentevaluatie – precies de domeinen waar op RL gebaseerde trainingsomgevingen duidelijke beloningssignalen kunnen geven.

Dit model is uitgebracht in preview-vorm en niet als een uitrol voor algemene beschikbaarheid, waarbij Google beweert dat het vooruitgang zal blijven boeken op gebieden zoals agentworkflows voordat het overgaat naar volledige GA.

Concurrentie-implicaties voor de AI-stack van uw bedrijf

Voor IT-beslissers die toonaangevende modelaanbieders evalueerden, zorgde de release van Gemini 3.1 Pro er niet alleen voor dat ze opnieuw moesten nadenken over welk model ze moesten kiezen, maar ook hoe ze zich konden aanpassen aan het snelle tempo van de veranderingen voor hun eigen producten en diensten.

De vraag is nu of deze release een reactie van concurrenten oproept. De oorspronkelijke lancering van de Gemini 3 Pro afgelopen november leidde tot een golf van modelreleases in zowel eigen als open ecosystemen.

Nu 3.1 Pro de leiding in de benchmark in verschillende belangrijke categorieën herwint, staat de druk op Anthropic, OpenAI en de open-weight-gemeenschap om te reageren – en in het huidige AI-landschap zal die reactie waarschijnlijk binnen weken worden gemeten, niet maanden.

Beschikbaarheid

Gemini 3.1 Pro is nu beschikbaar als preview via Gemini-API in Google AI Studio, Gemini CLI, Google Antigravity en Android Studio voor ontwikkelaars. Enterprise-klanten hebben er toegang toe via Hoekpunt AI En Gemini bedrijf. Consumenten van de Google AI Pro- en Ultra-pakketten hebben toegang tot deze via de Gemini- en NotebookLM-applicaties.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in