Home Nieuws Olmo Family 3 Ai2 daagt Qwen en Llama uit met efficiënte en...

Olmo Family 3 Ai2 daagt Qwen en Llama uit met efficiënte en open redeneringen en aanpassingen

21
0
Olmo Family 3 Ai2 daagt Qwen en Llama uit met efficiënte en open redeneringen en aanpassingen

Dat Allen Instituut voor AI (Ai2) hoopt met zijn nieuwste release te profiteren van de toenemende vraag naar op maat gemaakte modellen en bedrijven die op zoek zijn naar meer transparantie van AI-modellen.

Ai2 biedt de nieuwste toevoeging aan Olmo’s grote familie van taalmodellen voor organisaties, met een voortdurende focus op openheid en maatwerk.

Olmo 3 heeft langere contextvensters, meer redeneringssporen en is beter in coderen dan eerdere iteraties. Deze nieuwste versie is, net als andere Olmo-releases, open source onder de Apache 2.0-licentie. Bedrijven krijgen volledige transparantie en controle over training- en controlepuntgegevens.

Ai2 zal drie versies van Olmo 3 uitbrengen:

  • Olmo 3- Denken in 7B en 32B wordt beschouwd als het belangrijkste redeneermodel voor geavanceerd onderzoek

  • Olmo 3- Baseert ook op beide parameters, wat ideaal is voor programmeren, begrip, wiskunde en redeneren in lange contexten. Ai2 zegt dat deze versie “ideaal is voor geavanceerde pre-training of fine-tuning

  • Olmo 3-Instruct in 7B geoptimaliseerd voor het volgen van instructies, dialoog met meerdere beurten en gereedschapsgebruik

Het bedrijf zegt dat Olmo 3-Think “het eerste volledig open 32B-denkmodel is dat expliciete, redenerende inhoud genereert.” Olmo-3 Think heeft ook een lang contextvenster van 65.000 tokens, geschikt voor langer lopende agentprojecten of het nadenken over langere documenten.

Noah Smith, senior directeur NLP-onderzoek van Ai2, vertelde VentureBeat in een interview dat veel van zijn klanten, van gereguleerde bedrijven tot onderzoeksinstellingen, modellen willen gebruiken die hen zekerheid geven over wat de training oplevert.

“De releases van onze vrienden in de technische wereld zijn erg cool en erg interessant, maar er zijn veel mensen voor wie de gegevensprivacy bepaalt wat er in het model wordt gestopt, hoe het model wordt getraind en andere beperkingen aan hoe het model kan worden gebruikt van het grootste belang zijn”, aldus Smith.

Ontwikkelaars hebben toegang tot het model op Hugging Face en Ai2 Playground.

Transparantie en maatwerk

Smith zegt dat modellen als Olmo 3, volgens het bedrijf, elke organisatie die dit model gebruikt, controle moet hebben over en vormgegeven moet worden op een manier die het beste bij hen past.

“Wij geloven niet in universele oplossingen”, zei Smith. Het is algemeen bekend in de wereld van machinaal leren dat als je probeert een model te bouwen dat alle problemen oplost, dit niet het beste model voor een probleem zal zijn. Er is geen officieel bewijs hiervoor, maar het is waargenomen door oldtimers zoals ik.”

Hij voegde eraan toe dat een model met de mogelijkheid om zich te specialiseren “misschien niet zo snel is als het behalen van een hoge score op een wiskundetoets”, maar bedrijven meer flexibiliteit biedt.

Met Olmo 3 kunnen bedrijven het model opnieuw trainen door een mix van de gegevens die het leert toe te voegen. Het idee is dat bedrijven hun eigen bronnen kunnen gebruiken om het model te begeleiden bij het beantwoorden van bedrijfsspecifieke vragen. Om bedrijven tijdens dit proces te helpen, heeft Ai2 controlepunten uit elke belangrijke trainingsfase toegevoegd.

De vraag naar modelaanpassing is toegenomen omdat bedrijven die hun eigen LLM’s niet kunnen bouwen, bedrijfsspecifieke of branchegerichte modellen willen creëren. Startups vinden het leuk Arcee eigen beginnen met aanbieden een klein, ondernemingsgericht, aanpasbaar model.

Modellen als de Olmo 3 geven het bedrijf volgens Smith ook meer vertrouwen in zijn technologie. Omdat Olmo 3 trainingsgegevens levert, zegt Smith dat het bedrijf erop kan vertrouwen dat het model niets absorbeert wat het niet zou moeten absorberen.

Ai2 heeft altijd beweerd zich in te zetten voor meer transparantie, en heeft zelfs een tool gelanceerd genaamd OlmoTrace in april waarmee de modeluitvoer rechtstreeks kan worden teruggevoerd naar de originele trainingsgegevens. Het bedrijf brengt een open source-model uit en plaatst de code in repository’s zoals GitHub, zodat iedereen deze kan gebruiken.

Concurrenten als Google en OpenAI hebben het geconfronteerd met kritiek van ontwikkelaars voor acties die de ruwe redenering verbergen en ervoor kiezen om de redenering samen te vatten, waarbij ze beweren dat ze nu ‘blind debuggen’ uitvoeren zonder transparantie.

Ai2 heeft Olmo 3 getraind op een open source dataset ter waarde van zes biljoen tokens, Dolma 3. De dataset bevat webdata, wetenschappelijke literatuur en code. Smith zei dat ze Olmo 3 hebben geoptimaliseerd voor code, vergeleken met de focus op wiskunde voor Olmo 2.

Hoe het zich opstapelt

Ai2 beweert dat de Olmo 3-modelfamilie een aanzienlijke sprong voorwaarts betekent voor echte open source-modellen, althans voor open source LLM’s die buiten China zijn ontwikkeld. Het Olmo 3-basismodel is getraind “met ongeveer 2,5x grotere rekenefficiëntie, gemeten aan de hand van GPU-uren per token”, wat betekent dat het minder energie verbruikt tijdens de pre-training en minder kost.

Het bedrijf zegt dat het Olmo 3-model beter presteert dan andere open modellen, zoals Stanford’s Marin, K2 LLM360 en Apertus, hoewel Ai2 geen cijfers heeft verstrekt voor benchmarktests.

“Merk op dat Olmo 3-Think (32B) het sterkste volledig open redeneermodel is, waardoor de kloof met de beste open gewogen modellen van vergelijkbare schaal wordt verkleind, zoals de Qwen 3-32B-Thinking-modellenfamilie in onze hele reeks redeneringsbenchmarks, terwijl ze worden getraind met 6x minder tokens”, aldus Ai2 in een persbericht.

Het bedrijf voegde eraan toe dat Olmo 3-Instruct beter presteert dan Qwen 2.5, Gemma 3 en Llama 3.1.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in