Home Nieuws Het open-weight ASR-model van Cohere bereikt een woordfoutpercentage van 5,4% – laag...

Het open-weight ASR-model van Cohere bereikt een woordfoutpercentage van 5,4% – laag genoeg om spraak-API’s in productiepijplijnen te vervangen

2
0
Het open-weight ASR-model van Cohere bereikt een woordfoutpercentage van 5,4% – laag genoeg om spraak-API’s in productiepijplijnen te vervangen

Bedrijven die spraakgestuurde workflows bouwen, hebben beperkte opties voor transcriptie op productieniveau: gesloten API’s met datalocatierisico’s, of open modellen die nauwkeurigheid inruilen voor inzetbaarheid. Cohere’s nieuwe open-weight ASR-model, Transcribe, is gebouwd om te concurreren op alle vier de belangrijkste onderscheidende factoren: contextuele nauwkeurigheid, latentie, controle en kosten.

Cohere zegt dat Transcribe beter presteert dan de huidige leiders op het gebied van nauwkeurigheid – en in tegenstelling tot gesloten API’s kan Transcribe op de eigen infrastructuur van een organisatie draaien.

Cohere, toegankelijk via de API of in Cohere’s Model Vault als cohere-transcribe-03-2026, heeft 2 miljard parameters en is gelicentieerd onder Apache-2.0. Het bedrijf zegt dat Transcribe een gemiddeld woordfoutenpercentage (WER) heeft van slechts 5,42%, waardoor het minder fouten maakt dan vergelijkbare modellen.

Het is getraind in 14 talen: Engels, Frans, Duits, Italiaans, Spaans, Grieks, Nederlands, Pools, Portugees, Chinees, Japans, Koreaans, Vietnamees en Arabisch. Het bedrijf heeft niet gespecificeerd op welk Chinees dialect het model was getraind.

Cohere zei dat het het model heeft getraind “met een doelbewuste focus op het minimaliseren van WER, terwijl het nog steeds prioriteit geeft aan productiegereedheid.” Volgens Cohere is het resultaat een model dat rechtstreeks kan worden gekoppeld aan spraakgestuurde automatisering, transcriptiepijplijnen en audiozoekworkflows.

Zelf-gehoste transcriptie voor productiepijplijnen

Tot nu toe was transcriptie voor ondernemingen een afweging: gesloten API’s bieden nauwkeurigheid, maar de gegevens zijn vergrendeld; open modellen bieden controle, maar blijven achter in de prestaties. In tegenstelling tot Whisper, dat werd gelanceerd als onderzoeksmodel onder een MIT-licentie, is Transcribe vanaf de release beschikbaar voor commercieel gebruik en kan het draaien op de lokale GPU-infrastructuur van de organisatie. Early adopters karakteriseerden de commerciële, open benadering als zinvol voor de implementatie in ondernemingen.

Organisaties kunnen Transcribe naar hun lokale instanties brengen, omdat Cohere zegt dat het model een beter beheersbare gevolgtrekkingsvoetafdruk heeft voor lokale GPU’s. Het bedrijf zegt dat dit mogelijk is omdat het model “de Pareto-grens verlegt en state-of-the-art nauwkeurigheid levert (lage WER) terwijl de best-in-class doorvoer (hoge RTFx) behouden blijft in een cohort van meer dan 1 miljard parametermodellen.”

Hoe transcripties zich opstapelen

Transcript presteert beter dan andere spraakmodellen, waaronder Whisper van OpenAI, dat ChatGPT-spraakfuncties ondersteunt, en ElevenLabs, dat door veel grote retailmerken wordt ingezet. Momenteel op het hoogtepunt Knuffelend gezicht ASR-klassementleidt met een gemiddeld woordfoutenpercentage van 5,42%, vóór Whisper Large v3 met 7,44%, ElevenLabs Scribe v2 met 5,83% en Qwen3-ASR-1.7B met 5,76%.

Op basis van andere door Hugging Face geteste datasets presteerde Transcribe ook goed. Op de AMI-dataset, die het begrip van vergaderingen en dialooganalyse meet, noteerde Transcribe een score van 8,15%. Voor het testen van het begrip van verschillende accenten in de Voxpopuli-dataset scoorde het model 5,87%, alleen verslagen door Zoom Scribe.

Early adopters hebben nauwkeurigheid en lokale implementatie als prominente factoren aangemerkt, vooral voor teams die audiogegevens al via externe API’s routeren en deze werklasten intern willen implementeren.

Voor technische teams die RAG-stromen of agent-workflows met audio-invoer bouwen, biedt Transcribe een pad naar transcriptie op productieniveau zonder de dataresidentie en latentieboetes van gesloten API’s.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in