Home Nieuws DeepSeek publiceert nieuwe AI-trainingsmethode om LLM gemakkelijker te schalen

DeepSeek publiceert nieuwe AI-trainingsmethode om LLM gemakkelijker te schalen

9
0
DeepSeek publiceert nieuwe AI-trainingsmethode om LLM gemakkelijker te schalen

DeepSeek begon het jaar met een nieuw idee voor het trainen van AI. En analisten zeggen dat dit een grote impact kan hebben op de sector.

De Chinese AI-startup publiceerde woensdag een onderzoekspaper waarin een methode wordt beschreven voor het trainen van grote taalmodellen die de ‘evolutie van basismodellen’ zouden kunnen vormgeven, aldus het rapport.

Dit artikel, mede geschreven door oprichter Liang Wenfeng, introduceert wat DeepSeek ‘Manifold-Constrained Hyper-Connections’ of mHC noemt, een trainingsaanpak die is ontworpen om modellen te schalen zonder ze onstabiel of volledig kapot te maken.

Naarmate taalmodellen evolueren, proberen onderzoekers vaak de prestaties te verbeteren door verschillende delen van het model intern meer informatie te laten delen. Dit vergroot echter het risico dat informatie instabiel wordt, aldus de krant.

Het nieuwste onderzoek van DeepSeek maakt het mogelijk dat modellen op een beperkte manier rijkere interne communicatie kunnen delen, waardoor de trainingsstabiliteit en rekenefficiëntie behouden blijven, zelfs als modellen schalen, voegde hij eraan toe.

De nieuwe methode van DeepSeek is een ‘opvallende doorbraak’

Wei Sun, hoofd-AI-analist bij Counterpoint Research, vertelde vrijdag aan Business Insider dat de aanpak een “duidelijke doorbraak” betekent.

DeepSeek combineert verschillende technieken om de overhead van modeltraining te minimaliseren, zei Sun. Hij voegde eraan toe dat zelfs met een kleine stijging van de kosten nieuwe trainingsmethoden veel betere prestaties kunnen opleveren.

Sun zei dat de krant leest als een verklaring van de interne capaciteiten van DeepSeek. Door het trainingspakket van begin tot eind opnieuw te ontwerpen, gaf het bedrijf aan dat het ‘snelle experimenten kon combineren met zeer onconventionele onderzoeksideeën’.

Deepseek zou “opnieuw computerknelpunten kunnen omzeilen en sprongen in de intelligentie kunnen maken”, zei hij, verwijzend naar het “Spoetnik-moment” in januari 2025, toen het bedrijf zijn R1-redeneringsmodel onthulde.

De lancering bracht de technologie-industrie en de Amerikaanse aandelenmarkt op zijn kop, wat aantoonde dat het R1-model in korte tijd grote concurrenten, zoals o1 ChatGPT, zou kunnen evenaren. een fractie van de kosten.

Lian Jye Su, hoofdanalist bij Omdia, een technologieonderzoeks- en adviesbureau, vertelde vrijdag aan Business Insider dat het gepubliceerde onderzoek mogelijk rimpeleffect in de hele sector, waarbij rivaliserende AI-laboratoria hun eigen versies van de aanpak ontwikkelen.

De bereidheid om belangrijke bevindingen met de sector te delen en tegelijkertijd unieke waarde te blijven bieden via nieuwe modellen getuigt van hernieuwd vertrouwen in de sector De Chinese AI-industrieSu zei over het DeepSeek-papier. Openheid wel omarmd als een “strategisch voordeel en een belangrijke differentiator”, voegde hij eraan toe.

Komt het volgende DeepSeek-model binnenkort?

Het artikel komt terwijl DeepSeek naar verluidt werkt aan het uitbrengen van zijn volgende vlaggenschipmodel, de R2, na eerdere vertragingen.

De R2, die naar verwachting medio 2025 op de markt zou komen, werd uitgesteld nadat Liang zijn ontevredenheid had geuit over de prestaties van het model, zo meldde The Information in juni. Volgens het rapport werd de uitrol ook bemoeilijkt door een tekort aan geavanceerde AI-chips, een obstakel dat steeds meer invloed heeft op de manier waarop Chinese laboratoria geavanceerde modellen trainen en inzetten.

Hoewel het artikel R2 niet vermeldt, heeft de timing ervan vragen opgeroepen. DeepSeek publiceerde eerder basistrainingonderzoek voorafgaand aan de lancering van het R1-model.

Su zei dat het trackrecord van DeepSeek aantoont dat de nieuwe architectuur “zeker in hun nieuwe modellen zal worden geïmplementeerd.”

Sun is daarentegen voorzichtiger. “Er is waarschijnlijk geen stand-alone R2”, zei Sun. Omdat DeepSeek eerdere R1-updates al in zijn V3-model had geïntegreerd, zou deze techniek de ruggengraat van DeepSeeks V4-model kunnen worden, voegde hij eraan toe.

Alistair Barr van Business Insider schreef in juni dat de update van DeepSeek voor het R1-model niet veel grip opleverde in de technologie-industrie. Barr stelt dat distributie belangrijk is en dat DeepSeek nog steeds niet het brede bereik heeft dat toonaangevende AI-laboratoria – zoals OpenAI en Google – genieten, vooral op de westerse markten.



Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in