Home Nieuws Weibo’s nieuwe open source AI-model, VibeThinker-1.5B, presteert beter dan DeepSeek-R1 met een...

Weibo’s nieuwe open source AI-model, VibeThinker-1.5B, presteert beter dan DeepSeek-R1 met een post-trainingsbudget van $ 7.800

18
0

Op een dag eind 2025 opnieuw een indrukwekkend resultaat van een Chinees bedrijf op het gebied van open source kunstmatige intelligentie.

Chinees sociaal netwerkbedrijf De AI-divisie van Weibo heeft onlangs de open source VibeThinker-1.5B uitgebracht– een groot taalmodel (LLM) met 1,5 miljard parameters, een verbeterde variant van een rivaliserend Chinees technologiebedrijf Qwen2.5-Math-1.5B van Alibaba.

Nu gratis te downloaden en te gebruiken door onderzoekers en zakelijke ontwikkelaars, zelfs voor commerciële doeleinden, onder de toegestane MIT-licentie in Knuffelend gezicht, GitHub En Modelomvangmet een technisch rapport op de open access wetenschappelijke publicatiesite arxiv.org.

Ondanks zijn compacte formaat behaalt de VibeThinker-1.5B echter superieure redeneerprestaties bij wiskunde- en codetaken, waarbij hij kan wedijveren met modellen die honderden malen groter zijn dan zijn grootte, en zelfs beter presteert dan de beroemde R1 van de Chinese concurrent DeepSeek, die eerder dit jaar viraal ging (een model van 671 miljard parameters) op het gebied van formele redeneerbenchmarks.

Het presteert verder beter dan Mistral AI’s Magistral Medium en kan zich staande houden tegen Claude Opus 4 van Anthropic en OpenAI’s gpt-oss-20B Medium, die allemaal weinig infrastructuur en investeringen vereisen.

Hij deed dit ook na een training met een budget van slechts 7.800 dollar aan computerbronnen (3.900 GPU-uren op een Nvidia H800s) – veel minder dan de tientallen of zelfs honderden duizenden dollars die doorgaans nodig zijn om modellen van vergelijkbare of grotere schaal te verfijnen.

Houd er rekening mee dat dit niet de totale kosten zijn voor het ontwikkelen van het model: LLM’s worden in fasen getraind. De eerste is pre-training, waarbij het model basistaalstructuren en algemene kennis leert door het volgende woord te voorspellen over grote hoeveelheden tekst van internet, boeken en artikelen. Dit zorgt voor vloeiendheid, maar niet veel begrip van hoe u instructies moet volgen of een gesprek moet voeren

Daarna volgt de post-training, waarbij gebruik wordt gemaakt van een veel kleinere dataset van hogere kwaliteit (meestal een verzameling voorbeeldvragen, aanwijzingen en antwoorden geschreven door experts) om het model te leren hoe behulpzaam te reageren, problemen te overwegen en zich aan te passen aan menselijke verwachtingen. Toch blijft de kosteneffectiviteit na de training van de VibeThinker-1.5B op Weibo opmerkelijk en lovenswaardig.

Deze open source-release gooit aannames over parameterschaling, rekenintensiteit en minimaal haalbare omvang voor hoogwaardige LLM’s omver.

Verschillende trainingsbenaderingen: spectrum-naar-signaal

De prestaties van VibeThinker-1.5B zijn niet afhankelijk van de schaal, maar van het trainingsraamwerk erachter: het Spectrum-to-Signal Principle (SSP).

In plaats van een model uitsluitend te optimaliseren voor de juistheid van een enkel antwoord (Pass@1), scheidt het SSP-framework supervisie verfijning (SFT) en versterkend leren (RL) in twee afzonderlijke fasen met verschillende doelen:

  • SFT (“Spectrumfase”): Het model is getraind om de diversiteit van mogelijke correcte antwoorden te maximaliseren, waardoor de Pass@K-score wordt verhoogd. Dit levert meerdere plausibele oplossingspaden op.

  • RL (“Signaalfase”): Een leersysteem voor versterking in de tweede fase (genaamd MaxEnt-Guided Policy Optimization, of MGPO) wordt gebruikt om het meest correcte pad uit deze diverse reeks oplossingen te identificeren en te versterken. MGPO geeft prioriteit aan problemen waarvoor het model het meest onzeker is, door gebruik te maken van op entropie gebaseerde weging om het leren te focussen.

De auteurs beweren dat deze scheiding kleine modellen in staat stelt de redeneerruimte effectiever te verkennen, waardoor signaalversterking wordt bereikt zonder afhankelijk te zijn van een groot aantal parameters.

VibeThinker-1.5B levert een overtuigend argument dat het vertrouwen van de industrie op parameterschaling als enige weg naar betere redeneerprestaties achterhaald kan zijn.

Door gebruik te maken van een trainingspijplijn waarbij diversiteit voorop staat, heeft WeiboAI aangetoond dat kleinere, beter toegankelijke modellen systemen van miljarden dollars kunnen evenaren en zelfs beter kunnen presteren bij logica-intensieve taken.

De lage hulpbronnenvoetafdruk is een van de belangrijkste aspecten van de VibeThinker-1.5B. Met minder dan $ 8.000 zijn de post-trainingskosten 30-60x lager dan die van modellen als de DeepSeek R1 en MiniMax-M1, die tussen de $ 294.000 en $ 535.000 kosten om te trainen.

Prestaties over domeinen heen

Ondanks zijn kleine formaat biedt VibeThinker-1.5B domeinoverschrijdende redenering die veel grotere open source- en commerciële modellen overtreft:

Model

AIME25

LiveCodeBench v6

GPQA-Diamant

VibeThinker-1.5B

74,4

51.1

46,7

GPT-OSS-20B-Medium

72.1

54,9

66,0

Sluit taak 4

69,2

56,6

79,6

MiniMax M1 (456B)

74,6

62,3

69,2

DeepSeek R1 (671B)

70,0

65,9

71,5

Kimi K2 (1,09T)

49,5

53,7

75,1

VibeThinker wordt vergeleken met redeneergerichte modellen (Magistral, Claude, OpenAI o3-mini) en niet-redenerende LLM’s (GPT-4.1, Kimi K2, DeepSeek V3). In benchmarks voor gestructureerd redeneren presteert dit model consistent beter dan niet-redeneringsmodellen, ongeacht de grootte:

  • Bij AIME24 (wiskunde) versloeg hij Kimi K2 (1,09T) met meer dan 10 punten (80,3 vs. 69,6).

  • In LiveCodeBench v6 verslaat het Claude Opus 4 (51,1 vs. 47,4).

  • In GPQA scoort het onder GPT-4.1 en Claude, maar verdubbelt het nog steeds het basismodel (van 16,4 naar 46,7).

Dit ondersteunt de bewering van de auteurs dat omvang niet de enige weg is naar redeneervermogen; met een goed trainingsontwerp kunnen kleinere modellen de prestaties van veel grotere systemen bij gerichte taken bereiken of zelfs overtreffen.

Het model bereikt met name pariteit met modellen die honderden keren groter zijn in termen van wiskunde en code, hoewel het achterblijft op het gebied van algemene kennisredenering (GPQA), waar grotere modellen nog steeds een voordeel hebben.

Dit duidt op een potentiële wisselwerking tussen specialisaties: hoewel VibeThinker uitblinkt in gestructureerde logische taken, heeft het minder capaciteit voor een brede encyclopedische herinnering, wat een bekende beperking is bij kleinere architecturen.

Gids voor bedrijfsadoptie

Deze release bevat aanbevolen inferentie-instellingen (temperatuur = 0,6, top_p = 0,95, max. tokens = 40960).

Het model is klein genoeg om te worden ingezet op edge-apparaten, waaronder mobiele telefoons en op voertuigen gemonteerde systemen, terwijl de inferentiekosten naar schatting 20 tot 70 keer goedkoper zijn in vergelijking met grote modellen.

Dit positioneert VibeThinker-1.5B niet alleen als een onderzoeksprestatie, maar ook als een potentiële basis voor een kosteneffectief, lokaal inzetbaar redeneersysteem.

Weibo-marktstrategie en positionering

Weibo, gelanceerd door Sina Corporation in 2009, blijft een hoeksteen van het Chinese socialemedia-ecosysteem. Vaak omschreven als de Chinese versie van X (voorheen Twitter), combineert het platform microblogging, multimedia-inhoud en trending topic-functies met een regelgevingsomgeving die wordt gevormd door strikt overheidstoezicht.

Hoewel er maandelijks 600 miljoen actieve gebruikers zijn (meer dan het dubbele van het aantal X-gebruikers), beleggers zijn niet optimistisch over het groeipotentieel van de advertentie-inkomsten in de nabije toekomst, en Weibo krijgt te maken met toenemende concurrentie van video-first-platforms zoals Douyin, die jongere gebruikers aantrekken en de tijd die ze elders doorbrengen vergroten.

Als reactie hierop heeft Weibo gebruik gemaakt van het genereren van inkomsten uit de makerseconomie, livestreaming en verticale video, door tools toe te voegen voor de betrokkenheid van influencers, e-commerce-integratie en rijkere analyses voor merken.

De rol van het platform als digitaal openbaar plein maakt het ook tot een focus van regelgevend toezicht. De Chinese autoriteiten blijven druk uitoefenen op kwesties variërend van contentbeheer tot gegevensbeveiliging. In september 2025, Weibo was een van de platforms die in de officiële waarschuwing werd genoemdwaarbij de blootstelling aan beleidsrisico’s wordt benadrukt.

Weibo’s inzet voor onderzoek en ontwikkeling op het gebied van AI – geïllustreerd door de lancering van de VibeThinker-1.5B – duidt op een verschuiving in ambitie. Weibo is niet alleen een mediaplatform, maar positioneert zichzelf ook als speler in de volgende fase van de Chinese AI-ontwikkeling, waarbij gebruik wordt gemaakt van kapitaalreserves, gegevens over gebruikersgedrag en interne onderzoekscapaciteit om aangrenzende technische velden te onderzoeken.

Wat dit betekent voor technische besluitvormers in ondernemingen

Voor technische leiders en zakelijke AI-teams heeft de release van VibeThinker praktische implicaties voor alles, van orkestratiepijplijnen tot kostenmodellering.

Een model met 1,5 miljard parameters dat beter presteert dan een 100x groter model in wiskunde- en programmeertaken bespaart niet alleen berekeningen, het verandert ook de architectonische balans. Dit maakt LLM-inferentie op een beperkte infrastructuur mogelijk, vermindert de latentie aan de rand en verlaagt de toegangsdrempel voor applicaties die anders API-toegang tot gesloten frontier-schaalmodellen zouden vereisen.

Dit is belangrijk voor zakelijke ML-leiders die denkende agenten willen inzetten binnen bestaande systemen, of voor platformeigenaren die de taak hebben om LLM te integreren in geautomatiseerde workflows.

Dit geldt ook voor degenen die versterkend leren uitvoeren via menselijke feedbackkanalen (RLHF) of gevolgtrekkingsoptimalisatie beheren in hybride cloudomgevingen.

Deze modelmethodologie na de training – met name de op entropie gerichte versterkingsleerbenadering – biedt een routekaart voor teams die kleinere controlepunten willen verfijnen in plaats van te vertrouwen op grootschalige voortraining.

De maatregelen voor gegevenstransparantie en decontaminatie die VibeThinker benchmarkt, richten zich ook op een andere opkomende prioriteit in zakelijke AI: controleerbaarheid. Hoewel de prestaties op algemene kennistests nog steeds achterblijven bij die van grote modellen, maakt de taakspecifieke betrouwbaarheid het een aantrekkelijke kandidaat voor gecontroleerde omgevingen waar correctheid belangrijker is dan dekking.

Kortom, de VibeThinker-1.5B is niet alleen een onderzoeksmijlpaal; het is een sterke kandidaat voor praktisch gebruik, implementatie en leren in de onderneming. Dit suggereert dat een nieuwe klasse van compacte modellen en redeneringsoptimalisaties haalbaar zijn voor bedrijfsgebruiksscenario’s die voorheen het domein waren van veel grotere systemen. Voor organisaties die een evenwicht proberen te vinden tussen kosten, latentie, interpreteerbaarheid en controle, is dit een geweldige nieuwe optie voor China’s groeiende lijst van open source-aanbiedingen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in