Home Nieuws Trinity Large en het in de VS gemaakte Arcee open source 10T...

Trinity Large en het in de VS gemaakte Arcee open source 10T checkpoint bieden een zeldzame kijk op ruwe modelintelligentie

5
0
Trinity Large en het in de VS gemaakte Arcee open source 10T checkpoint bieden een zeldzame kijk op ruwe modelintelligentie

AI-lab in San Francisco Arcee gemaakt golf vorig jaar omdat het het enige Amerikaanse bedrijf is dat grote taalmodellen (LLM) helemaal opnieuw traint vrijgeven onder een open of gedeeltelijk open source-licentie voor het publiek, waardoor ontwikkelaars, ondernemers en zelfs middelgrote tot grote bedrijven gratis geavanceerde AI-modellen kunnen gebruiken en deze naar wens kunnen aanpassen.

Nu is Arcee deze week weer terug met de release van zijn grootste en best presterende open taalmodel tot nu toe: De Grote Drie-eenheidmixed expert (MoE) met 400 miljard parameters, nu beschikbaar als preview,

Samen met de vlaggenschipuitgave heeft Arcee ook een “ruw” checkpoint-model verzonden, Trinity-Large-TrueBasewaardoor onderzoekers kunnen leren wat de schaarse MoE 400B leert van alleen ruwe gegevens, voordat instructieafstemming en versterking wordt toegepast.

Door een netto basis ter waarde van 10 biljoen tokens te bieden, stelt Arcee AI-makers in sterk gereguleerde sectoren in staat authentieke audits uit te voeren en hun eigen aangepaste afstemming uit te voeren zonder de vooroordelen van de “black box” over te nemen of de eigenaardigheden van algemene chatmodellen te formatteren. Deze transparantie maakt een dieper inzicht mogelijk in de verschillen tussen het intrinsieke redeneervermogen van het model en het helpende gedrag dat tijdens de laatste fase na de training wordt uitgevoerd.

De lancering komt op het moment dat krachtige Chinese open source LLM-alternatieven zoals Alibaba (Qwen), z.AI (Zhipu), DeepSeek, Moonshot en Baidu de markt hebben overspoeld en feitelijk de categorie leiden met hoogefficiënte architecturen.

Trinity Large arriveert ook nadat Meta zich terugtrok uit het grensoverschrijdende open source-landschap. Volgen Lama debuteert op 4 april 2025dat werd gevonden gemengde ontvangsten later voormalig Meta AI-onderzoeker Yann LeCun geeft toe dat het bedrijf enkele versies van speciale modellen gebruikt om scores op benchmarks van derden te verbeteren.

Te midden van dit binnenlandse vacuüm heeft alleen OpenAI de voorsprong gpt-oss-familie uitgebracht in de zomer van 2025—en Arcee gebruikt momenteel een nieuw, in de VS gebouwd open source-model dat volledig vanaf nul is getraind.

Hoewel ze zelden komen

Trinity Large staat vooral bekend om zijn zeer schaarse aandachtsmechanisme. In MoE-architectuur verwijst ‘sparsity’ naar het vermogen van een model om selectief slechts een klein deel van de totale parameters voor een bepaalde taak te activeren.

Hoewel Trinity Large in totaal 400 miljard parameters bevat, is slechts 1,56% (13 miljard parameters) op een bepaald moment actief.

Deze architecturale keuze is belangrijk omdat het het model in staat stelt om “kennis” te hebben van zeer grote systemen, terwijl de inferentiesnelheid en operationele efficiëntie van veel kleinere systemen behouden blijven, waardoor prestaties worden bereikt die ongeveer 2 tot 3 keer sneller zijn dan die van hun tegenhangers op dezelfde hardware.

Soevereiniteit en de “TrueBase” -filosofie.

De belangrijkste bijdrage van deze release aan de onderzoeksgemeenschap is Trinity-Large-TrueBase: een onbewerkt checkpoint ter waarde van 10 biljoen tokens.

In tegenstelling tot bijna alle andere ‘open’ releases, die ontstaan ​​nadat ze zijn ‘vervormd’ door het afstemmen van instructies en versterkend leren, biedt TrueBase een zeldzaam en puur beeld van basisintelligentie.

In de haast om modellen bruikbaar te maken, maken de meeste laboratoria gebruik van Supervisie Tuning (SFT) en Reinforcement Learning from Human Feedback (RLHF) voordat de last wordt afgeworpen. Hoewel dit het model tot een betere spreker maakt, kan het de onderliggende kennisdistributie maskeren.

TrueBase biedt een “OG-basismodel” dat geen leersnelheid-gloeien of pre-trainingsfasen twee en drie heeft ondergaan, waarbij doorgaans instructiegegevens worden geïntroduceerd.

Voor onderzoekers en bedrijven in sterk gereguleerde sectoren maakt het starten van TrueBase authentieke audits en afstemming op maat mogelijk. Zoals Lucas Atkins, CTO van Arcee, opmerkte in een videogesprek met VentureBeat: “Interessant genoeg is het checkpoint zelf al een van de best presterende basismodellen ter wereld.”

Technologie: engineering door beperkingen

De oprichting van Trinity Large was niet het product van onbeperkte hulpbronnen, maar eerder van wat Atkins ‘engineering through limitations’ noemde.

Het model is in slechts 33 dagen getraind voor een bedrag van ongeveer $20 miljoen en vertegenwoordigt een masterclass in kapitaalefficiëntie.

Arcee, een team van slechts 30 mensen, opereert met een totaal kapitaal van iets minder dan $ 50 miljoen, waardoor de training van $ 20 miljoen een ‘back-the-company’-weddenschap is.

“Ik heb altijd geloofd dat het hebben van beperkingen, of het nu gaat om financiële of personele zaken of wat dan ook, van cruciaal belang is voor de creativiteit”, legt Atkins uit. “Als je slechts een onbeperkt budget hebt, hoef je in principe geen uitweg te vinden uit complexe problemen.”

Architectuur: 4-van-256 Sparsity en SMEBU

Trinity Large gebruikt een MoE 4 van de 256 schaarse architectuur, wat betekent dat het voor elk token slechts 4 van de 256 experts activeert.

Dit hoge niveau van spaarzaamheid – een van de hoogste trainingssuccespercentages ooit – zorgt voor aanzienlijke stabiliteitsproblemen tijdens de voorbereiding.

Om dit aan te pakken heeft Arcee de Soft-clamped Momentum Expert Bias Update (SMEBU) ontwikkeld. Dit mechanisme zorgt ervoor dat experts gespecialiseerd zijn en gelijkmatig over het algemene webcorpus worden geleid, waardoor wordt voorkomen dat sommige experts ‘winnaars’ worden, terwijl anderen ongetraind blijven als ‘dood gewicht’.

De snelheid van trainingsruns wordt mogelijk gemaakt door Arcee’s vroege toegang tot een Nvidia B300 (Blackwell) GPU. Deze chip levert tweemaal de snelheid van de vorige Hopper-generatie en een aanzienlijke toename van het geheugen.

“De pre-training duurt 33 dagen”, zei Atkins. “We zouden het op Hopper kunnen doen, en het zou waarschijnlijk twee tot drie maanden duren. En tegen die tijd zouden we in een hele nieuwe generatie modellen zitten.”

In samenwerking met DatologieAIArcee gebruikt meer dan 8 biljoen synthetische datatokens. Dit zijn echter niet de typische ‘imitatie’-synthetische gegevens waarbij een kleiner model leert praten als een groter model.

In plaats daarvan is het doel om onbewerkte webtekst, zoals blogs of Wikipedia-artikelen, te nemen en deze synthetisch te herschrijven om de informatie in een kleiner totaal aantal tokens te condenseren. Dit proces helpt het model informatie te leren overwegen, in plaats van alleen maar de juiste reeks tokens te onthouden.

Het architecturale ontwerp omvat ook afwisselende lokale en globale aandachtslagen met schuiframen met een verhouding van 3:1. Dankzij deze hybride aanpak kan het model zeer efficiënt zijn in scenario’s met een lange context. Wanneer Trinity Large wordt getraind voor een reekslengte van 256k, ondersteunt het native 512k-contexten, en uit evaluaties blijkt dat het zelfs bij een horizon van 1 miljoen tokens presteert.

Technische vergelijking: Trinity Large vs. gpt-oss-120b

Als Amerikaans alternatief kan Trinity Large worden vergeleken met OpenAI’s gpt-oss-120b.

Hoewel beide modellen een spaarzame architectuur gebruiken om toonaangevende prestaties te bereiken onder tolerante licenties, vervullen ze verschillende operationele rollen.

Hoewel gpt-oss-120b momenteel voordelen biedt op het gebied van specifieke redeneringen en wiskundige benchmarks, biedt Trinity Large aanzienlijke voordelen op het gebied van contextcapaciteit en diepte van ruwe parameters voor complexe meerstaps agentworkflows.

Soevereiniteit: het opvullen van de leegte

De release van Trinity Large was zowel een geopolitiek als een technisch statement. CEO Mark McQuade merkte in hetzelfde interview tegen VentureBeat op dat de leegte van het Amerikaanse open source-model op grensniveau een verandering in de strategie van Arcee dwong.

“Er vindt een dergelijke verschuiving plaats wanneer spelers in de VS of het Westen stoppen met het open sourcen van deze modellen”, aldus McQuade. “We vertrouwen op deze modellen om vervolgens de organisatie in te gaan en ze verder te brengen… maar Chinese laboratoria beginnen nog maar net… geavanceerde modellen te produceren en deze open source te maken.”

Voor McQuade zorgt dit voor een steeds ongemakkelijkere afhankelijkheid voor Amerikaanse bedrijven. “Zeker in onze gesprekken met grote organisaties kunnen zij geen gebruik maken van een in China gevestigde architectuur”, legt hij uit. “We willen kampioen worden in de VS. Dat bestaat momenteel niet echt.”

Door onder de Apache 2.0-licentie uit te brengen, biedt Arcee een gouden standaard-permissief raamwerk waarmee bedrijven de modellaag volledig kunnen ‘bezitten’. Dit is belangrijk voor sectoren als de financiële sector en defensie, waar het gebruik van door derden gehoste modellen of beperkte cloudproviders niet eenvoudig is.

Intelligentie in balans brengen met nut

Arcee concentreert zich momenteel op een ‘huidig ​​denkmodel’ om Trinity Large om te zetten van een algemeen instructiemodel naar een volledig redeneermodel. Het team worstelt met de balans tussen ‘slimheid versus bruikbaarheid’ en probeert een model te creëren dat uitblinkt in benchmarks zonder ‘luchtig’ of inefficiënt te zijn in echte productietoepassingen.

“We hebben Trinity gebouwd zodat jij het kunt bezitten”, zegt het team, waarmee een terugkeer naar de grondwaarden van de Amerikaanse open source-beweging wordt aangegeven. Terwijl de industrie steeds meer in de richting gaat van agent-workflows en grote contextvereisten, positioneert Trinity Large zichzelf niet als een ‘wrapper’, maar als een soevereine infrastructuurlaag die ontwikkelaars uiteindelijk kunnen controleren.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in