Home Nieuws Musk’s XAI lanceert Grok 4.1 met lagere niveaus van hallucinaties op internet...

Musk’s XAI lanceert Grok 4.1 met lagere niveaus van hallucinaties op internet en in apps – zonder API-toegang (voorlopig)

28
0
Musk’s XAI lanceert Grok 4.1 met lagere niveaus van hallucinaties op internet en in apps – zonder API-toegang (voorlopig)

Dit lijkt een poging te zijn om eerder de aandacht van Google te trekken lancering van het nieuwe Gemini 3 vlaggenschip AI-model – nu door verschillende onafhankelijke beoordelaars vermeld als de krachtigste LLM ter wereld – Elon Musk’s rivaliserende AI-startup, xAI, onthulde gisteravond zijn nieuwste grote taalmodel, Grok 4.1.

Het model is nu beschikbaar voor consumentengebruik op Grok.com, het sociale netwerk xAI publiceert ook graag een witboek over de evaluatie ervan en bevat wat informatie over het trainingsproces Hier.

In openbare benchmarks staat Grok 4.1 bovenaan het klassement en presteert beter dan concurrerende modellen van Anthropic, OpenAI en Google – althans Google’s pre-Gemini 3-model (Gemini 2.5 Pro). Het bouwt voort op het succes van de Grok-4 Fast xAI, die VentureBeat zorgde voor een goede dekking zodra deze in september 2025 wordt uitgebracht.

Enterprise-ontwikkelaars die het nieuwe en verbeterde Grok 4.1-model in een productieomgeving willen integreren, zullen echter één groot obstakel tegenkomen: het is nog niet beschikbaar via xAI openbare API.

Ondanks de hoge benchmarks is Grok 4.1 nog steeds beperkt tot de xAI-gebruikersinterface, zonder aangekondigd API-blootstellingsschema. Momenteel zijn alleen oudere modellen, waaronder de Grok 4 Fast (redenerende en niet-redenerende varianten), de Grok 4 0709 en oudere modellen zoals de Grok 3, Grok 3 Mini en Grok 2 Vision, beschikbaar voor programmatisch gebruik via de xAI-ontwikkelaars-API. Het ondersteunt maximaal 2 miljoen contexttokens, met tokenprijzen variërend van $0,20 tot $3,00 per miljoen, afhankelijk van de configuratie.

Voorlopig beperkt dit de bruikbaarheid van Grok 4.1 in bedrijfsworkflows die afhankelijk zijn van backend-integraties, aangepaste agentpijplijnen of schaalbare interne tools. Terwijl de consumentenlancering Grok 4.1 positioneert als de meest capabele LLM in het xAI-portfolio, laat de productie-implementatie in bedrijfsomgevingen nog steeds op zich wachten.

Modelontwerp en implementatiestrategie

Grok 4.1 wordt geleverd in twee configuraties: een snelle responsmodus met lage latentie voor onmiddellijke antwoorden, en een ‘denk’-modus waarbij er in meerdere stappen moet worden geredeneerd voordat er output wordt gegenereerd.

Beide versies zijn beschikbaar voor eindgebruikers en kunnen worden geselecteerd via de modelkiezer in de xAI-app.

De twee configuraties verschillen niet alleen in latentie, maar ook in de mate waarin de modelprocessen worden aangevraagd. Grok 4.1 Thinking maakt gebruik van interne plannings- en overlegmechanismen, terwijl de standaardversie prioriteit geeft aan snelheid. Ondanks verschillen in architectuur scoorden beide hoger dan welk concurrerend model dan ook in blinde voorkeurs- en benchmarktests.

Toonaangevend op het gebied van menselijke en deskundige evaluatie

In LMArena Text Arena-klassementGrok 4.1 Thinking stond kort op de eerste plaats met een genormaliseerde Elo-score van 1483 – en werd een paar uur later onttroond met Lancering van Gemini 3 door Google en een ongelooflijke Elo-score van 1501.

De hersenloze versie van Grok 4.1 presteerde echter ook goed op de index, op 1465.

Deze scores geven Grok 4.1 een voorsprong op Google’s Gemini 2.5 Pro, Anthropic’s Claude 4.5-serie en OpenAI’s GPT-4.5 preview.

Op het gebied van creatief schrijven stond Grok 4.1 op de tweede plaats na Polaris Alpha (een vroege variant van GPT-5.1), waarbij het ‘denkende’ model 1721,9 scoorde op de Creative Writing v3-benchmark. Dit betekent een verbetering van ongeveer 600 punten ten opzichte van de vorige Grok-iteratie.

Op dezelfde manier staat Grok 4.1 Thinking op het Arena Expert-klassement, dat feedback verzamelt van professionele recensenten, opnieuw aan de leiding met een score van 1510.

Deze verbeteringen zijn vooral belangrijk gezien het feit dat Grok 4.1 slechts twee maanden na Grok 4 Fast werd uitgebracht, wat het versnelde ontwikkelingstempo van xAI benadrukt.

Kernverbeteringen vergeleken met de vorige generatie

Technisch gezien vertegenwoordigt Grok 4.1 een aanzienlijke sprong in de bruikbaarheid in de echte wereld. Visuele mogelijkheden (voorheen beperkt in Grok 4) zijn verbeterd om krachtig beeld- en videobegrip mogelijk te maken, inclusief diagramanalyse en tekstextractie op OCR-niveau. Multimodale betrouwbaarheid was een probleem in eerdere versies en is nu opgelost.

De latentie op tokenniveau is met ongeveer 28 procent verminderd, terwijl de diepgang van de redenering behouden is gebleven.

Bij taken met een lange context behield Grok 4.1 een coherente doorvoer tot 1 miljoen tokens, waardoor de neiging van Grok 4 om te degraderen voorbij de grens van 300.000 tokens werd vergroot.

xAI heeft ook de orkestratiemogelijkheden van deze modelleringstools verbeterd. Grok 4.1 kan nu meerdere externe tools parallel plannen en uitvoeren, waardoor het aantal interactiecycli dat nodig is om meerstapsquery’s te voltooien, wordt verminderd.

Volgens interne testlogboeken kunnen sommige onderzoekstaken die voorheen vier stappen vereisten, nu in één of twee stappen worden voltooid.

Andere verbeteringen op het gebied van de afstemming zijn onder meer een betere waarheidskalibratie – waardoor de neiging wordt verminderd om politiek gevoelige output af te dekken of te verzachten – en meer natuurlijke, mensachtige prosodie in de stemmodus, met ondersteuning voor verschillende spraakstijlen en accenten.

Tegenstrijdige veiligheid en robuustheid

Als onderdeel van zijn risicobeheerraamwerk evalueerde xAI Grok 4.1 op resistentiegedrag, weerstand tegen hallucinaties, likken en veiligheid voor tweeërlei gebruik.

Het hallucinatiepercentage in de niet-redenerende modus is gedaald van 12,09 procent in Grok 4 Fast naar slechts 4,22 procent – ​​een stijging van ongeveer 65%.

Het model scoorde ook 2,97 procent op FactScore, een feitelijke QA-benchmark, vergeleken met 9,89 procent in de vorige versie.

Op het gebied van vijandige veerkracht is Grok 4.1 getest met snelle injectie-aanvallen, jailbreak-opdrachten en gevoelige chemische en biologische vragen.

Het beveiligingsfilter liet een laag fout-negatief percentage zien, vooral voor beperkte chemische kennis (0,00 procent) en beperkte biologische vragen (0,03 procent).

Het vermogen van het model om manipulatie te weerstaan ​​in overtuigingsbenchmarks, zoals MakeMeSay, lijkt ook sterk: het succespercentage als aanvaller was 0 procent.

Beperkte Enterprise-toegang via API

Ondanks deze voordelen is Grok 4.1 nog steeds niet beschikbaar voor zakelijke gebruikers via de xAI API. Volgens het bedrijf openbare documentatieDe nieuwste modellen die beschikbaar zijn voor ontwikkelaars zijn Grok 4 Fast (zowel redenerende als niet-redenerende varianten), die elk maximaal 2 miljoen contexttokens ondersteunen met prijsniveaus variërend van $0,20 tot $0,50 per miljoen tokens. Dit wordt ondersteund door een tokendoorvoerlimiet per minuut van 4 miljoen en een limiet voor de aanvraagsnelheid per minuut (RPM) van 480.

Daarentegen is Grok 4.1 alleen toegankelijk via de consumentgerichte eigenschappen van xAI: X, Grok.com en mobiele apps. Dit betekent dat organisaties Grok 4.1 nog niet kunnen implementeren via aangepaste interne workflows, multi-agentketens of realtime productintegratie.

Acceptatie door de industrie en volgende stappen

Deze release kreeg krachtige reacties van het publiek en de industrie. Elon Musk, oprichter van xAI, plaatste een korte steunbetuiging, noemde het een “geweldig model” en feliciteerde het team. Het AI-benchmarkplatform prijst sprongen in bruikbaarheid en taalkundige nuance.

Voor zakelijke klanten is het beeld echter gemengder. De prestaties van Grok 4.1 vertegenwoordigen een doorbraak voor algemene en creatieve taken, maar totdat API-toegang mogelijk wordt gemaakt, zal het een consumentgericht product blijven met beperkte zakelijke toepasbaarheid.

Terwijl de concurrentiemodellen van OpenAI, Google en Anthropic zich blijven ontwikkelen, kunnen de volgende strategische stappen van xAI afhangen van wanneer – en hoe – Grok 4.1 toegankelijk wordt voor externe ontwikkelaars.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in