Bedrijven die tokenizer-vrije meertalige modellen willen, wenden zich steeds meer tot taalmodellen op byte-niveau om de kwetsbaarheid van luidruchtige tekst of tekst met weinig bronnen te verminderen. Om die niche aan te boren – en deze op grote schaal praktisch te maken – introduceerde het Allen Institute of AI (Ai2) Bolmoeen reeks nieuwe modellen die hiervan profiteren Olmo 3 modellen door ze te ‘bytefiyen’ en hun ruggengraat en capaciteiten te hergebruiken.
Het bedrijf lanceerde twee versies, Bolmo 7B en Bolmo 1B, die “de eerste volledig open taalmodellen op byte-niveau” zijn. volgens Ai2. Het bedrijf zegt dat beide modellen concurrerend presteren met andere modellen op byteniveau en op karakters, en deze in sommige gevallen zelfs overtreffen.
Het taalmodel op byteniveau werkt rechtstreeks op onbewerkte UTF-8-bytes, waardoor de noodzaak voor vooraf gedefinieerde vocabulaires of tokenizers wordt geëlimineerd. Hierdoor kunnen ze betrouwbaarder omgaan met spelfouten, zeldzame talen en ongebruikelijke tekst – een belangrijke vereiste voor moderatie, edge-handhaving en meertalige toepassingen.
Voor bedrijven die AI in meerdere talen, luidruchtige gebruikersinvoer of beperkte omgevingen inzetten, biedt een tokenizer-vrij model een manier om de operationele complexiteit te verminderen. Bolmo van Ai2 is een poging om die aanpak op grote schaal praktisch te maken – zonder opnieuw te hoeven trainen.
Hoe Bolmo werkt en hoe het wordt gemaakt
Ai2 zei dat het het Bolmo-model heeft getraind met behulp van een combinatie van Dolma 3-gegevens, die hebben geholpen bij het trainen Het vlaggenschipmodel van Olmoen verschillende open-codedatasets en gegevens op tekenniveau.
Het bedrijf zegt dat het zijn doel is “een reproduceerbare en doorgelichte blauwdruk te bieden voor het byteificeren van krachtige subspeak-taalmodellen, zodat de gemeenschap deze kan overnemen en uitbreiden.” Om dit doel te bereiken zal Ai2 controlepunten, codes en compleet papier om andere organisaties te helpen modellen op byteniveau te bouwen bovenop hun Olmo-ecosysteem.
Omdat het duur kan zijn om een model op byteniveau helemaal opnieuw te trainen, kozen Ai2-onderzoekers in plaats daarvan voor het bestaande Olmo 3 7B-controlepunt om byteificatie in twee fasen uit te voeren.
In de eerste fase loopt Ai2 vast De Olmo 3-transformator traint dus alleen bepaalde onderdelen, zoals de lokale encoder en decoder, de grensvoorspeller en de taalmodelleringskop. Het is ontworpen om “goedkoop en snel” te zijn en vereist slechts 9,8 miljard tokens.
In de volgende fase wordt het model verdund en getraind met extra tokens. Ai2 zegt dat de benadering op byteniveau Bolmo in staat stelt knelpunten in de woordenschat te vermijden die traditionele subwoordmodellen beperken.
Sterke prestaties onder zijn collega’s
Taalmodellen op byteniveau zijn niet zo populair als kleine taalmodellen of LLM’s, maar het is een groeiend onderzoeksgebied. Meta brengt zijn BLT-architectuur uit Het onderzoek van vorig jaar, dat tot doel heeft een model aan te bieden dat robuust is, ruwe data verwerkt en niet afhankelijk is van een vast vocabulaire.
Een ander onderzoeksmodel op dit gebied inclusief ByT5, MrT5 StanfordEn Hond.
Ai2 evalueerde Bolmo met behulp van zijn evaluatiepakket, dat wiskunde, STEM-redeneren, het beantwoorden van vragen, algemene kennis en code omvat.
De Bolmo 7B demonstreerde sterke prestaties, presteerde beter dan karaktergerichte benchmarks zoals CUTE en EXECUTE, en verbeterde ook de nauwkeurigheid ten opzichte van de basis-LLM Olmo 3.
Bolmo 7B presteert beter dan modellen van vergelijkbare grootte op het gebied van coderen, wiskunde, meerkeuzevragen en begrip op karakterniveau.
Waarom bedrijven kiezen voor modellen op byteniveau
Bedrijven vinden waarde in hybride modelstructuren, waarbij gebruik wordt gemaakt van een mix van modellen en modelgroottes.
Ai2 stelt dat organisaties modellen op byteniveau ook moeten overwegen, niet alleen vanwege de robuustheid en het meertalige begrip, maar omdat ze “natuurlijk aansluiten bij bestaande model-ecosystemen.”
“Het belangrijkste voordeel van dynamische hiërarchische instellingen is dat compressie een schakelaar wordt die kan worden gewijzigd”, aldus het bedrijf.
Voor bedrijven die al stapels heterogene modellen gebruiken, suggereert Bolmo dat modellen op byteniveau misschien niet langer puur academisch zijn. Door een robuust subwoordmodel aan te passen in plaats van helemaal opnieuw te trainen, signaleert Ai2 een pad met een lager risico voor organisaties die veerkracht willen zonder de bestaande infrastructuur op te geven.


