Home Nieuws Ai2’s nieuwe Olmo 3.1 breidt de versterkingsleertraining uit voor robuustere redeneerbenchmarks

Ai2’s nieuwe Olmo 3.1 breidt de versterkingsleertraining uit voor robuustere redeneerbenchmarks

20
0
Ai2’s nieuwe Olmo 3.1 breidt de versterkingsleertraining uit voor robuustere redeneerbenchmarks

Het Allen Institute for AI (Ai2) heeft onlangs wat het zijn krachtigste tot nu toe noemt, uitgebracht modelfamilie, Olmo 3. Maar het bedrijf bleef het model herhalen en het proces van versterkend leren (RL) uitbreiden om Olmo 3.1 te creëren.

Het nieuwe Olmo 3.1-model richt zich op efficiëntie, transparantie en controle voor bedrijven.

Ai2 werkt twee van de drie versies van Olmo 2 bij: Olmo 3.1 Think 32B, een vlaggenschipmodel dat is geoptimaliseerd voor geavanceerd onderzoek, en Olmo 3.1 Instruct 32B, ontworpen voor het volgen van instructies, multi-turn dialoog en gereedschapsgebruik.

Olmo 3 heeft een derde versie, Olmo 3-Base voor programmeren, begrip en wiskunde. Dit werkt ook goed voor voortdurende verfijning.

Ai2 zegt dat de onderzoekers, om de Olmo 3 Think 32B naar Olmo 3.1 te upgraden, hun best-of-breed RL-proces hebben uitgebreid met een langer trainingsschema.

“Na de eerste lancering van Olmo 3 hebben we onze RL-training voor Olmo 3 32B Think voortgezet, waarbij we nog eens 21 dagen trainden op 224 GPU’s met extra perioden op onze Dolci-Think-RL-dataset”, zei Ai2 in een blogpost. “Dit resulteert in Olmo 3.1 32B Think, dat substantiële verbeteringen oplevert op het gebied van wiskunde, redeneren en volgende instructies: verbeteringen van 5+ punten op AIME, 4+ punten op ZebraLogic, 4+ punten op IFEval en 20+ punten op IFBench, naast sterkere prestaties bij het coderen en complexe meerstapstaken.”

Om de Olmo 3.1 Instruct te realiseren, zegt Ai2 dat de onderzoekers het recept achter de kleinere Instruct-grootte, 7B, hebben toegepast op het grotere model.

Olmo 3.1 Instruct 32B is “geoptimaliseerd voor chat, toolgebruik en dialoog met meerdere beurten, waardoor het de veel performantere broer of zus van Olmo 3 Instruct 7B is en klaar voor toepassingen in de echte wereld”, zei Ai2 in een bericht op X.

Voorlopig zijn de nieuwe controlepunten beschikbaar in Ai2 Playground of Hugging Face, en binnenkort komt er API-toegang.

Betere prestaties op benchmarks

Het Olmo 3.1-model presteerde goed in benchmarktests en versloeg voorspelbaar het Olmo 3-model.

De Olmo 3.1 Think presteerde beter dan het Qwen 3 32B-model op de AIME 2025-benchmark en presteerde dicht bij de Gemma 27B.

De Olmo 3.1 Instruct presteert sterk in vergelijking met zijn open source-tegenhangers en verslaat zelfs modellen als de Gemma 3 op de Math-benchmark.

Olmo 3.1 Instrueer benchmarks

“Wat Olmo 3.1 32B Instruct betreft, het is een op maat gemaakt instructiemodel op grotere schaal, gebouwd voor chat, toolgebruik en dialoog met meerdere beurten. Olmo 3.1 32B Instruct is ons meest capabele volledig open chatmodel tot nu toe en – in onze evaluatie – het sterkste volledig open instructiemodel op 32B-schaal”, aldus het bedrijf.

Ai2 verbetert ook het RL-Zero 7B-model voor wiskunde en coderen. Het bedrijf vertelde X dat beide modellen baat hebben bij een langere en stabielere training.

Toewijding aan transparantie en open source

Ai2 vertelde VentureBeat eerder dat het de Olmo 3-modellenfamilie heeft ontworpen om bedrijven en onderzoekslaboratoria meer controle en begrip te bieden van de gegevens en training die in de modellen worden ingevoerd.

Organisaties kunnen een mix van modelgegevens toevoegen en deze opnieuw trainen om te leren van wat er is toegevoegd.

Dit is al lang een engagement van Ai2, dat ook een tool genaamd OlmoTrace waarmee wordt bijgehouden hoe de LLM-uitvoer overeenkomt met de trainingsgegevens.

“Samen laten Olmo 3.1 Think 32B en Olmo 3.1 Instruct 32B zien dat openheid en prestaties tegelijkertijd kunnen verbeteren. Door dezelfde modelstroom uit te breiden, blijven we de mogelijkheden verbeteren terwijl we volledige transparantie behouden over data, code en trainingsbeslissingen”, aldus Ai2.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in