Home Nieuws Meta keert terug naar open source AI met een meertalig ASR-model dat...

Meta keert terug naar open source AI met een meertalig ASR-model dat meer dan 1.600 talen native kan transcriberen

28
0

Meta heeft zojuist een nieuwe uitgebracht meertalig automatisch spraakherkenningssysteem (ASR). ondersteunt meer dan 1.600 talen – wat het open source Whisper-model van OpenAI, dat slechts 99 talen ondersteunt, in de schaduw stelt.

Dankzij de Is-architectuur kunnen ontwikkelaars die ondersteuning ook uitbreiden naar duizenden anderen. Via een functie genaamd zero-shot in-context learning kunnen gebruikers tijdens de inferentietijd meerdere voorbeelden van audio- en tekstparen in een nieuwe taal leveren, waardoor het model extra spraak in die taal kan transcriberen zonder enige hertraining.

In de praktijk breidt dit de potentiële dekking uit naar meer dan 5.400 talen – grofweg elke gesproken taal met een bekend schrift.

Dit is een verschuiving van statische modelmogelijkheden naar een flexibel raamwerk dat door de samenleving kan worden aangepast. Dus terwijl 1.600 talen de officiële trainingsdekking weerspiegelen, vertegenwoordigt het bredere aantal het vermogen van Omnilingual ASR om op aanvraag te generaliseren, waardoor dit het meest uitbreidbare spraakherkenningssysteem tot nu toe is.

Het beste van alles: het is hieronder open source reguliere Apache 2.0-licentie – geen open source, semi-beperkte Llama-licentie zoals de vorige releases van het bedrijf, die het gebruik door grote bedrijven beperkte, tenzij ze een licentievergoeding betaalden – wat betekent dat onderzoekers en ontwikkelaars vrij zijn om het te nemen en het onmiddellijk, gratis en zonder beperkingen toe te passen, zelfs in commerciële projecten en projecten op ondernemingsniveau!

Uitgebracht op 10 november Meta-website, Githubsamen met een demoruimte bij Hugging Face En technisch papierDe ASR-suite van Omnilingual Meta omvat een reeks spraakherkenningsmodellen, een meertalig audiorepresentatiemodel met 7 miljard parameters en een groot spraakcorpus dat meer dan 350 voorheen onderbediende talen omvat.

Alle bronnen zijn gratis beschikbaar onder een open licentie en het model ondersteunt live spraak-naar-tekst-transcriptie.

“Door deze modellen en datasets open source te maken, willen we taalbarrières slechten, de digitale toegang uitbreiden en gemeenschappen over de hele wereld versterken”, schreef Meta in zijn verslag. @AIatMeta-account in X

Ontworpen voor spraak-naar-tekst-transcriptie

In de kern is Omnilingual ASR een spraak-naar-tekst-systeem.

De modellen zijn getraind om gesproken taal om te zetten in geschreven tekst en ondersteunen toepassingen zoals stemassistenten, transcriptietools, ondertitels, digitalisering van gesproken archieven en toegankelijkheidsfuncties voor talen met weinig hulpmiddelen.

In tegenstelling tot eerdere ASR-modellen die uitgebreide gelabelde trainingsgegevens vereisen, bevat Omnilingual ASR een zero-shot-variant.

Deze versie kan talen transcriberen als nooit tevoren, met slechts een paar voorbeelden van audioparen en bijbehorende tekst.

Dit verlaagt de drempel voor het toevoegen van nieuwe of bedreigde talen aanzienlijk, waardoor de noodzaak voor grote collecties of omscholing wordt geëlimineerd.

Modelfamilies en technisch ontwerp

De omnilinguale ASR-suite omvat verschillende modellenfamilies die zijn getraind met meer dan 4,3 miljoen uur audio uit meer dan 1.600 talen:

  • wav2vec 2.0-model voor zelfstandig leren van spraakrepresentatie (parameters 300M–7B)

  • Op CTC gebaseerd ASR-model voor efficiënte transcriptie onder toezicht

  • Het LLM-ASR-model combineert een spraakencoder met een op Transformer gebaseerde tekstdecoder voor geavanceerde transcriptie

  • Het LLM-ZeroShot ASR-model maakt aanpassing van de inferentietijd aan onzichtbare talen mogelijk

Alle modellen volgen een encoder-decoder-ontwerp: onbewerkte audio wordt omgezet in een taalonafhankelijke representatie en vervolgens vertaald in geschreven tekst.

Waarom schaal belangrijk is

Hoewel Whisper en vergelijkbare modellen geavanceerde ASR-mogelijkheden hebben voor mondiale talen, kunnen ze de menselijke taaldiversiteit nog steeds niet bijhouden. Whisper ondersteunt 99 talen. Meta-systeem:

  • Ondersteunt rechtstreeks meer dan 1.600 talen

  • Kan generaliseren naar meer dan 5.400 talen met behulp van in-context leren

  • Behaalt een karakterfoutpercentage (CER) van minder dan 10% in 78% van de ondersteunde talen

Onder de ondersteunde talen bevinden zich meer dan 500 talen die nog niet eerder onder een ASR-model vielen, aldus het Meta-onderzoeksartikel.

Deze uitbreiding opent nieuwe mogelijkheden voor gemeenschappen waarvan de talen vaak zijn uitgesloten van digitale hulpmiddelen

Hier is een herziene en uitgebreide achtergrondsectie, waarin de bredere context van de AI-strategie van Meta 2025, leiderschapsveranderingen en Llama 4-acceptatie zijn geïntegreerd, compleet met citaten en in-tekstlinks:

Achtergrond: AI Meta-revisie en rebound van Llama 4

De lancering van ASR Omnilingual komt op een sleutelmoment in Meta’s AI-strategie, na een jaar gekenmerkt door organisatorische onrust, leiderschapsveranderingen en ongelijkmatige productuitvoering.

ASR Omnilingual is de eerste grote open source-modelrelease sinds de lancering van Llama 4, Meta’s nieuwste grote taalmodel, dat debuteert in april 2025 naar recensies waren gemengd en uiteindelijk slechtmet weinig adoptie door bedrijven vergeleken met Chinese concurrenten van open source-modellen.

Het falen bracht Meta-oprichter en CEO Mark Zuckerberg ertoe Alexandr Wang, mede-oprichter en voormalig CEO van AI-dataleverancier Scale AI, te benoemen. als Chief AI-officieren ga aan de slag massale en dure rekrutering wat de AI en het bedrijfsleven schokte lucratieve salarispakketten voor toonaangevende AI-onderzoekers.

Meertalige ASR vertegenwoordigt daarentegen een strategische en reputatieverandering. Het brengt Meta terug naar een domein dat van oudsher door ondernemingen werd geleid – meertalige AI – en biedt een werkelijk uitbreidbare, gemeenschapsgerichte stapel met minimale toetredingsdrempels.

De ondersteuning van het systeem voor meer dan 1.600 talen en de uitbreiding ervan naar meer dan 5.000 andere talen door middel van zero-shot in-context learning bevestigt opnieuw de geloofwaardigheid van Meta-engineering in taaltechnologie.

Belangrijk is dat dit gebeurt via een gratis, met toestemming gelicentieerde release, onder Apache 2.0, met transparante datasetbronnen en reproduceerbare trainingsprotocollen.

Deze verschuiving sluit aan bij bredere thema’s in Meta’s 2025-strategie. Het bedrijf heeft zijn verhaal geheroriënteerd op een ‘persoonlijke superintelligentie’-visie en zwaar geïnvesteerd in infrastructuur (inclusief de lancering van een speciale AI-versneller en Arm-gebaseerde inferentiestapel in september) bron terwijl de metaverse wordt gebagatelliseerd ten gunste van fundamentele AI-mogelijkheden. De terugkeer van openbare trainingsgegevens in Europa na een inbreuk op de regelgeving onderstreept ook de intentie om wereldwijd te concurreren, ondanks privacycontrole. bron.

Omnilingual ASR is dus meer dan alleen een modelrelease – het is een berekende zet om de controle over het verhaal te herbevestigen: van de gefragmenteerde lancering van Llama 4 tot op onderzoek gebaseerde bijdragen met een hoog nut die aansluiten bij Meta’s AI-platformstrategie voor de lange termijn.

Gemeenschapsgerichte verzameling van gegevenssets

Om deze schaal te bereiken, werkte Meta samen met onderzoekers en gemeenschapsorganisaties in Afrika, Azië en elders om het Omnilingual ASR Corpus te creëren, een dataset van 3.350 uur in 348 talen met weinig hulpbronnen. Bijdragers worden gecompenseerd door lokale sprekers en opnames worden verzameld door samenwerking met groepen zoals:

  • De volgende stem van Afrika: Het door de Gates Foundation gesteunde consortium omvat Maseno University (Kenia), University of Pretoria en Data Science Nigeria

  • Publieke stem van de Mozilla Foundationondersteund via het Open Multilingual Speech Fund

  • Lanfrica / NaijaVoicesdie gegevens produceert voor 11 Afrikaanse talen, waaronder Igala, Serer en Urhobo

Gegevensverzameling gericht op natuurlijke, niet-gescripte spraak. Prompts zijn ontworpen om cultureel relevant en open te zijn, zoals ‘Is het beter om een ​​paar goede vrienden te hebben of veel losse kennissen? Waarom?’ Bij de transcriptie wordt gebruik gemaakt van een beproefd schrijfsysteem, waarbij bij elke stap kwaliteitsborging is ingebouwd.

Prestatie- en hardwareoverwegingen

Het grootste model in de serie, omniASR_LLM_7B, vereist ~17 GB GPU-geheugen voor inferentie, waardoor het geschikt is voor implementatie op geavanceerde hardware. Kleinere modellen (300M–1B) kunnen op apparaten met een laag energieverbruik werken en real-time transcriptiesnelheden bieden.

Prestatiebenchmarks laten sterke resultaten zien, zelfs in scenario’s met weinig middelen:

  • CER <10% in 95% van de talen met hoge en gemiddelde hulpbronnen

  • CER <10% in 36% van de talen met weinig hulpmiddelen

  • Robuustheid in luidruchtige omstandigheden en onzichtbare domeinen, vooral bij fijnafstemming

Het zero-shot-systeem, omniASR_LLM_7B_ZS, kan nieuwe talen transcriberen met minimale instellingen. De gebruiker geeft verschillende voorbeelden van audio-tekstparen en het model genereert een transcriptie voor een nieuwe uiting in dezelfde taal.

Open Access en ontwikkelaarstools

Alle modellen en datasets zijn gelicentieerd onder toegestane voorwaarden:

Installatie ondersteund via PyPI en uv:

pip install omnilingual-asr

Meta biedt ook:

  • HuggingFace-dataset-integratie

  • Vooraf gebouwde gevolgtrekkingspijplijn

  • Conditionering van taalcodes om de nauwkeurigheid te verbeteren

Ontwikkelaars kunnen de volledige lijst met ondersteunde talen bekijken met behulp van de API:

from omnilingual_asr.models.wav2vec2_llama.lang_ids import supported_langs

print(len(supported_langs))
print(supported_langs)

Bredere implicaties

ASR Omnilingual verandert de taaldekking in ASR van een vaste lijst naar een vaste lijst uitbreidbaar raamwerk. Dit maakt het volgende mogelijk:

  • Op de gemeenschap gebaseerde integratie van ondervertegenwoordigde talen

  • Digitale toegang tot gesproken en bedreigde talen

  • Onderzoek naar spraaktechnologieën in diverse taalcontexten

Het allerbelangrijkste is dat Meta ethische overwegingen benadrukt en open source-deelname en samenwerking met moedertaalsprekergemeenschappen bepleit.

“Geen enkel model kan vooraf anticiperen en alle talen van de wereld omvatten”, stelt het Omnilingual ASR-artikel, “maar Omnilingual ASR stelt gemeenschappen in staat de herkenning uit te breiden met hun eigen gegevens.”

Toegang tot hulpmiddelen

Alle bronnen zijn nu beschikbaar op:

Wat dit betekent voor bedrijven

Voor bedrijfsontwikkelaars, vooral degenen die actief zijn in meertalige of internationale markten, vermindert Omnilingual ASR de barrières voor het inzetten van spraak-naar-tekstsystemen bij een breder scala aan klanten en regio’s aanzienlijk.

In plaats van te vertrouwen op commerciële ASR API’s die slechts een handvol talen met hoge hulpbronnen ondersteunen, kan het team nu een open source-pijplijn integreren die meer dan 1.600 talen omvat, met de optie om deze uit te breiden naar duizenden extra talen via zero-shot learning.

Deze flexibiliteit is vooral waardevol voor bedrijven die werkzaam zijn in sectoren als spraakgestuurde klantenondersteuning, transcriptiediensten, toegankelijkheid, onderwijs of civiele technologie, waar dekking van de lokale taal een concurrentie- of regelgevingsvereiste kan zijn. Omdat dit model wordt uitgebracht onder de tolerante Apache 2.0-licentie, kunnen bedrijven het zonder beperkende vereisten verbeteren, implementeren of integreren in bedrijfseigen systemen.

Het vertegenwoordigt ook een verschuiving in het ASR-landschap: van gecentraliseerde, cloudgerichte aanbiedingen naar gemeenschapsuitbreidbare infrastructuur. Door meertalige spraakherkenning toegankelijker, aanpasbaarder en kosteneffectiever te maken, opent ASR Omnilingual de deur naar een nieuwe generatie spraaktoepassingen voor bedrijven die zijn gebouwd op taalkundige inclusie, niet op taalkundige beperkingen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in