AI MistralDe in Parijs gevestigde startup die zichzelf positioneert als het Europese antwoord op OpenAI, heeft woensdag een paar spraak-naar-tekst-modellen uitgebracht waarvan het bedrijf zegt dat ze audio sneller, nauwkeuriger en veel goedkoper kunnen transcriberen dan al het andere op de markt – allemaal volledig draaiend op een smartphone of laptop.
De aankondiging markeert het nieuwste salvo in een steeds competitievere strijd om stem-AI, een technologie die zakelijke klanten als essentieel beschouwen voor alles, van geautomatiseerde klantenservice tot realtime vertaling. Maar in tegenstelling tot het aanbod van de Amerikaanse technologiegigant is Mistral een nieuw product Voxtraal transcript 2 -model is ontworpen om gevoelige audio te verwerken zonder deze ooit naar een externe server te sturen – een functie die doorslaggevend zou kunnen zijn voor bedrijven in gereguleerde sectoren zoals de gezondheidszorg, de financiële sector en defensie.
“Je wilt dat je stem en je stemtranscriptie dichtbij blijven waar je bent, wat betekent dat je wilt dat het op een apparaat gebeurt – op een laptop, een telefoon of een smartwatch”, zei Pierre Stock, Mistral’s vice-president van wetenschappelijke operaties, in een interview met VentureBeat. “We hebben dit mogelijk gemaakt omdat het model slechts 4 miljard parameters heeft. Het is klein genoeg om overal te passen.”
Mistral verdeelt zijn nieuwe AI-transcriptietechnologie in batchverwerking en realtime toepassingen
Mistral heeft twee verschillende modellen uitgebracht onder de vlag van Voxtral Transcribe 2, elk ontworpen voor verschillende gebruiksscenario’s.
-
Voxtral V2 Mini-transcriptie verzorgt batchtranscriptie en verwerkt vooraf opgenomen audiobestanden in bulk. Het bedrijf zegt dat het het laagste woordfoutenpercentage bereikt van alle transcriptiediensten en dat het via API beschikbaar is voor $ 0,003 per minuut, ongeveer een vijfde van de prijs van grote concurrenten. Dit model ondersteunt 13 talen, waaronder Engels, Chinees, Japans, Arabisch, Hindi en verschillende Europese talen.
-
Voxtral realtimeverwerkt, zoals de naam al doet vermoeden, live audio met een configureerbare latentie van maximaal 200 milliseconden — in een oogwenk. Mistral beweert dat dit een doorbraak is voor toepassingen waarbij zelfs een vertraging van twee seconden onaanvaardbaar is gebleken: live ondertitels, stemagenten en verbeterde realtime klantenservice.
Dat Real-time model schip onder een Apache 2.0 open source-licentie, wat betekent dat ontwikkelaars modelgewichten kunnen downloaden van Knuffelend gezichtwijzig het en implementeer het zonder licentiekosten aan Mistral te betalen. Voor bedrijven die ervoor kiezen om niet hun eigen infrastructuur te beheren, kost API-toegang $ 0,006 per minuut.
Stock zei dat Mistral erop inzet dat de open source-gemeenschap het bereik van het model zal vergroten. “De open source-gemeenschap is erg fantasierijk als het om toepassingen gaat”, zegt hij. “We zijn benieuwd wat ze gaan doen.”
Waarom AI-verwerking op apparaten belangrijk is voor bedrijven die gevoelige gegevens verwerken
De beslissing om een model te ontwikkelen dat klein genoeg was om lokaal te kunnen draaien, weerspiegelde een berekening met betrekking tot de marktrichting van het bedrijf. Nu bedrijven AI integreren in steeds gevoeliger wordende workflows – het transcriberen van medische consulten, financiële telefoontjes, juridische deposito’s – is de vraag waar die gegevens naartoe gaan een groot probleem geworden.
Stock gaf tijdens zijn interview een duidelijk beeld van de kwestie. De huidige apps voor het maken van notities met audiomogelijkheden, legt hij uit, pikken omgevingsgeluid vaak op problematische manieren op: “Ze kunnen muziekteksten op de achtergrond oppikken. Ze kunnen andere gesprekken opvangen. Ze kunnen het achtergrondgeluid hallucineren.”
Mistral heeft zwaar geïnvesteerd in datacuratietraining en modelarchitectuur om deze problemen aan te pakken. “Al met al besteden we veel tijd aan het verfijnen van de gegevens en aan de manier waarop we het model trainen om deze aan te sturen”, aldus Stock.
Het bedrijf voegde ook bedrijfsspecifieke functies toe die langzamer te implementeren waren dan zijn Amerikaanse concurrenten. Door contextbias kunnen klanten een lijst met aangepaste terminologie uploaden (medisch jargon, bedrijfseigen productnamen, acroniemen uit de branche) en het model selecteert deze termen automatisch bij het transcriberen van dubbelzinnige audio. In tegenstelling tot aanpassingen die een herscholing van het model vereisen, werkt contextbias via eenvoudige API-parameters.
“Je hebt alleen een lijst met teksten nodig”, legt Stock uit. “En dan zal het model de transcriptie automatisch vertekenen in de richting van deze vreemde acroniemen of woorden. En het resultaat is nul, geen noodzaak voor omscholing, geen behoefte aan rare dingen.”
Van de fabrieksvloer tot het callcenter richt Mistral zich op industriële omgevingen met veel lawaai
Stock schetste twee scenario’s die illustreren hoe Mistral de implementatie van de technologie voor zich ziet.
De eerste betreft een sectoraudit. Stel je voor dat technici door een productiefaciliteit lopen en zware machines inspecteren terwijl ze opmerkingen schreeuwen boven het lawaai van de fabriek uit. “Stel je uiteindelijk een briefje voor met perfecte tijdstempels om te identificeren wie wat heeft gezegd – dagboekschrijven dus – terwijl het ongelooflijk krachtig is,” zei Stock. De uitdaging is omgaan met wat hij ‘rare technische taal noemt die alleen deze jongens kunnen spellen’.
Het tweede scenario is gericht op klantenserviceactiviteiten. Wanneer een beller contact opneemt met het ondersteuningscentrum, kan Voxtral Realtime het gesprek in realtime transcriberen en de tekst doorsturen naar een backend-systeem dat relevante klantnotities ophaalt voordat de beller klaar is met het uitleggen van het probleem.
“De status van de vervoerder verschijnt op het scherm voordat de klant de zin onderbreekt en stopt met klagen”, legt Stock uit. Dit betekent dat je gewoon communiceert en zegt: ‘Oké, ik kan de status zien. Laat mij het adres corrigeren en de zending terugsturen.”
Hij schat dat dit de typische klantenservice-interactie kan terugbrengen van meerdere heen-en-weer-gesprekken tot slechts twee interacties: de klant legt het probleem uit en de agent lost het snel op.
Real-time vertaling in verschillende talen zou tegen eind 2026 gerealiseerd kunnen worden
Ondanks alle aandacht voor transcriptie maakt Stock duidelijk dat Mistral dit model beschouwt als een fundamentele technologie voor een ambitieuzer doel: realtime spraak-naar-spraakvertaling die natuurlijk aanvoelt.
“Misschien is het uiteindelijke doel van implementatie en het model waarop het is gebaseerd directe vertaling”, zei hij. “Ik spreek Frans, jij spreekt Engels. De sleutel is om een minimale latentie te hebben, omdat je anders geen empathie opbouwt. Je gezicht komt niet overeen met wat je een seconde geleden zei.”
Met dat doelpunt komt Mistral in directe concurrentie met Appel En Googlenbeide concurreren om hetzelfde probleem op te lossen. het nieuwste van Google vertaalmodel werkt met een vertraging van twee seconden – tien keer langzamer dan Mistral beweert Voxtral realtime.
Mistral positioneert zichzelf als een privacy-eerst alternatief voor zakelijke klanten
Mistral neemt een ongebruikelijke positie in in het AI-landschap. Het bedrijf, opgericht in 2023 door Meta- en Google-alumni DeepMind, heeft meer dan $ 2 miljard opgehaald en heeft nu een waardering van ongeveer $ 13,6 miljard. Maar het bedrijf werkt met een fractie van de computerbronnen die beschikbaar zijn voor Amerikaanse hyperscalers – en heeft zijn strategie gebaseerd op efficiëntie, niet op brute kracht.
“Het model dat we uitbrengen is van ondernemingsklasse, toonaangevend in de sector, efficiënt – met name in termen van kosten – kan aan de rand worden ingebed, ontgrendelt privacy, ontgrendelt controle en transparantie”, aldus Stock.
Deze aanpak werd vooral verwelkomd door Europese klanten die zich zorgen maakten over de afhankelijkheid van Amerikaanse technologie. In januari, Frankrijk Ministerie van Strijdkrachten ondertekende een raamovereenkomst die het leger van het land toegang geeft tot Mistral AI-modellen – een overeenkomst die expliciet de inzet van door Frankrijk gecontroleerde infrastructuur vereist.
Gegevensprivacy blijft een van de grootste obstakels voor de implementatie van stem-AI in ondernemingen. Voor bedrijven in gevoelige sectoren – financiën, productie, gezondheidszorg, verzekeringen – is het verzenden van audiogegevens naar externe cloudservers vaak niet eenvoudig. De informatie moet op het device zelf blijven staan of binnen de eigen infrastructuur van het bedrijf.
Mistral wordt geconfronteerd met hevige concurrentie van OpenAI, Google en opkomend China
De transcriptiemarkt is zeer competitief geworden. Open AI Fluistermodel is de industriestandaard geworden, beschikbaar via API en als downloadbaar open source-gewicht. Googlen, AmazoneEn Microsoft ze bieden allemaal spraakdiensten op bedrijfsniveau. Speciale spelers zoals AI-assemblage En Diepgram heeft een groot bedrijf opgebouwd dat ontwikkelaars bedient die betrouwbare, schaalbare transcriptie nodig hebben.
Mistral beweert dat zijn nieuwe modellen beter presteren dan alle nauwkeurigheidsbenchmarks en lagere prijzen. “Wij zijn beter dan zij als het gaat om benchmarks”, aldus Stock. Onafhankelijke verificatie van de claims zal tijd vergen, maar het bedrijf laat zijn prestaties zien BLOEMeen veelgebruikte meertalige spraakbenchmark, waarbij Voxtral-modellen woordfoutpercentages behalen die wedijveren met of beter presteren dan alternatieven van OpenAI en Google.
Misschien nog belangrijker is dat Arthur Mensch, CEO van Mistral, heeft gewaarschuwd dat Amerikaanse AI-bedrijven te maken krijgen met druk uit onverwachte richting. Binnen praten Wereld Economisch Forum Vorige maand in Davos verwierp Mensch het idee dat de Chinese AI achterloopt op die van het Westen als simpelweg een ‘sprookje’.
“China’s mogelijkheden op het gebied van open source-technologie kunnen druk uitoefenen op Amerikaanse CEO’s”, zei hij.
De Franse startup gokt erop dat vertrouwen de winnaar zal bepalen op het gebied van enterprise voice AI
Stock voorspelt dat 2026 het “jaar van het record” zal zijn – het moment waarop AI-transcriptie betrouwbaar genoeg wordt zodat gebruikers er volledig op kunnen vertrouwen.
“Je moet het model vertrouwen, en in principe mag het model geen fouten maken, anders verlies je gewoon het vertrouwen in het product en stop je met het gebruik ervan”, zei hij. “De drempel is heel, heel moeilijk.”
Of de Mistral die drempel heeft overschreden, valt nog te bezien. Enterprise-klanten zullen de voornaamste juryleden zijn, en zij hebben de neiging langzaam te werk te gaan en claims aan de werkelijkheid te toetsen voordat ze zich committeren aan budgetten en workflows voor nieuwe technologie. Audiospeeltuin in Mistral-studio’swaar ontwikkelaars kunnen testen Voxtraal transcript 2 met hun eigen bestanden, gaat vandaag live.
Maar het bredere argument van Stock verdient aandacht. In een markt waar Amerikaanse giganten concurreren door miljarden dollars uit te geven aan steeds grotere modellen, waagt Mistral een andere gok: dat in het AI-tijdperk kleine, lokale modellen waarschijnlijk grotere, verder weg gelegen modellen zullen verslaan. Voor leidinggevenden die zich de hele dag zorgen maken over datasoevereiniteit, naleving van regelgeving en leveranciersbetrokkenheid, kan het voorstel aantrekkelijker blijken dan welke benchmark dan ook.
De race om de voice-AI van ondernemingen te domineren gaat niet langer alleen over wie de krachtigste modellen bouwt. Het gaat erom wie het model heeft gebouwd waarnaar je wilt luisteren.



