Home Nieuws Mistral’s Small 4 combineert redeneren, visie en coderen in één model –...

Mistral’s Small 4 combineert redeneren, visie en coderen in één model – tegen een fractie van de kosten van gevolgtrekking

2
0
Mistral’s Small 4 combineert redeneren, visie en coderen in één model – tegen een fractie van de kosten van gevolgtrekking

Bedrijven die al afzonderlijke modellen gebruiken voor redeneren, multimodale taken en agentcodering kunnen hun stapel mogelijk vereenvoudigen: Mistral’s nieuwe Small 4 brengt ze alle drie in één open source-model, met aanpasbare redeneerniveaus.

De Small 4 betreedt een druk veld van kleine modellen – incl Qwen En Claude Haiku — die concurreren op basis van inferentiekosten en benchmarkprestaties. Mistral Pitch: kortere doorvoer, wat een lagere latentie en goedkopere tokens betekent.

Kleine Mistral-update 4 Mistral Small 3.2, dat in juni 2025 uitkomt, en is beschikbaar onder de Apache 2.0-licentie. “Met Small 4 hoeven gebruikers niet langer te kiezen tussen een snel instructiemodel, een krachtige redeneermachine of een multimodale assistent: één model biedt ze nu alle drie, met configureerbare redeneerinspanningen en de beste efficiëntie in zijn klasse”, aldus Mistral in een blogpost.

Het bedrijf zegt dat ondanks zijn kleinere formaat – de Mistral Small 4 in totaal 119 miljard parameters heeft met slechts 6 miljard actieve parameters per token – dit model de mogelijkheden van alle Mistral-modellen combineert. Het beschikt over Magistral-redeneermogelijkheden, Pixtral multimodaal begrip en Devstral-agentische coderingsprestaties. Het heeft ook 256K contextvensters die volgens het bedrijf goed werken voor langetermijngesprekken en analyses.

Rob May, medeoprichter en CEO van de marktplaats Neurometric voor kleine taalmodellen, vertelde VentureBeat dat Mistral Small 4 opvalt door zijn architectonische flexibiliteit. Dit model sluit zich echter aan bij een groeiend aantal kleinere modellen waarvan hij zegt dat ze het risico inhouden dat de markt fragmenteert.

“Vanuit technisch perspectief kan het inderdaad concurreren met andere modellen”, aldus May. “Het grotere probleem is dat het model de verwarring op de markt moet overwinnen. Mistral moet de meerderheid winnen om als eerste deel uit te maken van die testsuite. Alleen dan kunnen ze de technische mogelijkheden van het model demonstreren.”

Redeneren op verzoek

Kleine modellen bieden nog steeds aan een goede keuze voor bedrijfsbouwers die dezelfde LLM-ervaring willen opdoen tegen lagere kosten.

Dit model is gebouwd op de gecombineerde architectuur van experts, net als andere Mistral-modellen. Het beschikt over 128 experts met elk vier actieve tokens, wat volgens Mistral efficiënte schaalvergroting en specialisatie mogelijk maakt.

Hierdoor kan de Mistral Small 4 sneller reageren, zelfs op meer redeneerintensieve uitvoer. Het kan ook tekst en afbeeldingen verwerken en overwegen, zodat gebruikers documenten en afbeeldingen kunnen ontleden.

Mistral zei dat het model een nieuwe parameter heeft genaamd Reasoning_effort, waarmee gebruikers “het gedrag van het model dynamisch kunnen aanpassen.” Bedrijven zullen de Small 4 kunnen configureren om snelle, lichtgewicht antwoorden te bieden in dezelfde stijl als de Mistral Small 3.2, of hem uitgebreider kunnen maken zoals de Magistral, waardoor stapsgewijze redenering voor complexe taken mogelijk wordt, aldus Mistral.

Mistral zegt dat de Small 4 op minder chips draait dan vergelijkbare modellen, met een aanbevolen opstelling van vier Nvidia HGX H100’s of H200’s, of twee Nvidia DGX B200’s.

“Het leveren van geavanceerde open source AI-modellen vereist uitgebreide optimalisatie. Door nauwe samenwerking met Nvidia is inference geoptimaliseerd voor open source vLLM en SGLang, waardoor een hoge doorvoer en efficiënte levering in alle implementatiescenario’s wordt gegarandeerd”, aldus Mistral.

Benchmarkprestaties

Volgens Mistral-benchmarks liggen de prestaties van de Small 4 dicht bij het niveau van de Mistral Medium 3.1 en Mistral Large 3, vooral in MMLU Pro.

Mistral zegt dat de instructievolgende prestaties de Small 4 geschikt maken voor grootschalige bedrijfstaken, zoals het begrijpen van documenten.

Ondanks dat hij concurreert met andere kleine modellen van andere bedrijven, presteert de Small 4 nog steeds onder andere populaire open source-modellen, vooral bij taken die veel beoordelingsvermogen vereisen. Qwen 3.5 122B en Qwen 3-next 80B presteerden beter dan Small 4 in LiveCodeBench, net als Claude Haiku in de instructiemodus.

Mistral Small 4 wist OpenAI’s GPT-OSS 120B te verslaan in LCR.

Mistral stelt dat de Small 4 deze score behaalt met een “significant kortere doorvoer”, wat lagere inferentiekosten en latentie betekent in vergelijking met andere modellen. Specifiek in de instructiemodus produceerde de Small 4 de kortste output van alle geteste modellen: 2,1 duizend tekens versus 14,2 duizend voor Claude Haiku en 23,6 duizend voor GPT-OSS 120B. In de redeneermodus is de uitvoer veel langer (18,7K), wat voor dat gebruiksscenario wordt verwacht.

May zei dat hoewel de keuze van het model afhangt van de doelstellingen van een organisatie, latentie een van de drie pijlers is die prioriteit moeten krijgen. “Het hangt af van je doelen en wat je wilt bereiken met je architectuur. Bedrijven moeten prioriteit geven aan deze drie pijlers: betrouwbaarheid en gestructureerde doorvoer, latentie-tot-intelligentie-verhouding, goede aanpasbaarheid en privacy”, aldus May.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in