Sluit je aan bij de groeiende gelederen kleinere en krachtigere redeneermodellen is MiroThinker 1.5 van MiroMind, met slechts 30 miljard parameters, vergeleken met de honderden miljarden of biljoenen die worden gebruikt door toonaangevende grote taalmodellen (LLM’s).
Maar MiroThinker 1.5 onderscheidt zich onder deze kleine denkers om één belangrijke reden: het biedt onderzoeksmogelijkheden voor agenten die wedijveren met concurrenten met biljoen parameters, zoals Zoals K2 En Diep zoekenmet lagere inferentiekosten.
Deze release markeert een mijlpaal in het streven naar efficiënte en inzetbare AI-agenten. Bedrijven zijn lange tijd gedwongen geweest om te kiezen tussen dure API-aanroepen naar front-endmodellen of gecompromitteerde lokale prestaties. MiroThinker 1.5 biedt een derde pad: een open gewichtsmodel dat speciaal is ontworpen voor langdurig gereedschapsgebruik en redeneren in meerdere stappen.
Een van de grootste trends in de branche is de verschuiving van zeer gespecialiseerde agenten naar meer algemene agenten. Tot nu toe waren deze mogelijkheden grotendeels beperkt tot propriëtaire modellen. MiroThinker 1.5 vertegenwoordigt een serieuze open-klasse concurrent op dit gebied. Let op mij YouTube-video’s eronder.
Het risico op hallucinaties verminderen door verifieerbaar redeneren
Voor IT-teams die AI-implementaties evalueren, blijven hallucinaties een grote barrière voor het gebruik van open modellen in de productie. MiroThinker 1.5 pakt dit aan via wat MiroMind de ‘wetenschappelijke modus’ noemt: een fundamentele architecturale verandering in de manier waarop modellen met onzekerheid omgaan.
In plaats van statistisch plausibele antwoorden te genereren op basis van uit het hoofd geleerde patronen (de hoofdoorzaak van de meeste hallucinaties), is MiroThinker getraind om verifieerbare onderzoekslussen uit te voeren: een hypothese voorstellen, externe bronnen op zoek gaan naar bewijs, discrepanties identificeren, conclusies herzien en opnieuw verifiëren. Tijdens de training wordt het model expliciet gestraft voor uitvoer met veel vertrouwen, maar ontbreekt het aan bronondersteuning.
De praktische implicatie voor implementatie in bedrijven is auditcapaciteit. Wanneer MiroThinker een antwoord genereert, kan het een reeks redeneringen en de externe bronnen die het raadpleegt aan het licht brengen. Voor gereguleerde sectoren zoals de financiële dienstverlening, de gezondheidszorg en de wetgeving creëert dit een documentatiespoor dat op het hoofd gebaseerde modellen niet kunnen bieden. Het complianceteam kan niet alleen de conclusies van het model beoordelen, maar ook hoe het model tot zijn conclusies is gekomen.
Deze aanpak vermindert ook het probleem van ‘vertrouwenshallucinatie’ dat veel voorkomt bij productie-AI-systemen. Het model is getraind om verificatie te zoeken, in plaats van te extrapoleren in geval van onzekerheid – een gedrag dat direct resulteert in minder en duurdere fouten.
Benchmarkprestaties: ponsen boven zijn gewicht
Onder dit raamwerk levert MiroThinker-v1.5-30B prestaties die vergelijkbaar zijn met modellen met tot 30x meer parameters, inclusief het Kimi-K2-Thinking-model dat een biljoen parameters heeft.
Op BrowserComp-ZH, de belangrijkste benchmark voor webonderzoeksmogelijkheden, presteerde het 30B-model zelfs beter dan zijn rivaal met biljoen parameters met een score van 69,8.
Het kostenverschil is minstens zo belangrijk. MiroMind rapporteert inferentiekosten van slechts $ 0,07 per oproep voor de 30B-variant – ongeveer een twintigste van de kosten van Kimi-K2-Thinking – samen met hogere inferentiesnelheden.
De grotere 235B-variant (met 22B actieve parameters in de gecombineerde architectuur van de experts) staat bovenaan de mondiale ranglijst in meerdere benchmarks voor zoekagenten. Bij algemene agentische zoekevaluatie kan dit model concurreren met systemen van DeepSeek V3.2, Minimax, GLM en Kimi-K2.
Tijdens het testen kwam dit grotere model in sommige benchmarks dichter bij de Gemini 3 Pro en dichter bij een GPT-5-klassesysteem dan het aantal parameters zou doen vermoeden. Terwijl standaard heuvelklimmen steeds gebruikelijker worden, is de algehele concurrentiekracht belangrijker – en de MiroThinker houdt zich goed staande.
Uitgebreid gereedschapsgebruik: tot 400 gereedschapsoproepen per sessie
Het bepalende vermogen van MiroThinker 1.5 is het continue gebruik van tools.
Het model ondersteunt maximaal 256.000 contexttokens en claimondersteuning voor maximaal 400 tool-oproepen per sessie – een cruciale vereiste voor complexe onderzoeksworkflows waarbij uitgebreide informatieverzameling, synthese en kruiscontrole betrokken zijn.
Dit plaatst MiroThinker stevig in de categorie van agentmodellen die zijn ontworpen voor autonome taakvoltooiing, en niet voor vraag- en antwoordsessies van één ronde. Praktische toepassingen zijn onder meer diepgaande onderzoeksworkflows, contentpijplijnen, het genereren van rapporten en uitvoer in podcaststijl vergelijkbaar met NotebookLM.
Trainingsinnovatie: een tijdgevoelige sandbox
Een andere belangrijke innovatie in MiroThinker 1.5 is de Time Sensitive Training Sandbox.
Traditionele modeltraining werkt op basis van wat MiroMind beschrijft als een ‘Gods perspectief’, dat wil zeggen dat het model toegang heeft tot de uiteindelijke resultaten in een statische dataset, waardoor vooringenomenheid achteraf ontstaat. MiroThinker-training elimineert dat voordeel.
Tijdens de training kan het model alleen communiceren met informatie die vóór een bepaald tijdstip is gepubliceerd, waardoor toekomstige lekken worden voorkomen en het model wordt gedwongen te redeneren onder realistische omstandigheden van onvolledige informatie.
Deze pijplijn combineert begeleide verfijning met versterkend leren met behulp van verifieerbare beloningen via Group Relative Policy Optimization (GRPO), een geavanceerd versterkend leeralgoritme gepopulariseerd door DeepSeek, dat het model aanmoedigt om op het juiste moment de juiste tool te kiezen.
Deze aanpak is vooral relevant voor bedrijfsgebruiksscenario’s waarbij het model rekening moet houden met evoluerende situaties in plaats van met statische feiten.
Praktische toepassingsoverwegingen
Voor IT-teams die implementatie overwegen, blijven hardwarevereisten belangrijk. Zelfs het 30B-model vereist een grote hoeveelheid GPU-geheugen, en kleinere opstellingen kunnen problemen hebben.
Een van de voordelen is compatibiliteit. MiroThinker draait op een vLLM-server met OpenAI-compatibele API-eindpunten, waardoor het gemakkelijker wordt om te integreren in bestaande toolchains en workflows voor functieaanroepen als drop-in vervanging.
Beide modelgroottes zijn beschikbaar onder de tolerante, ondernemingsvriendelijke MIT-licentie van Hugging Face, en online demo’s zijn beschikbaar voor evaluatie. Permissieve licentieverlening neemt belangrijke barrières voor interne implementatie en maatwerk weg.
Het grotere plaatje: Interactief versus interactief schalen Parameterschaling
MiroThinker 1.5 verschijnt nu de industrie geconfronteerd wordt met de juridische beperkingen van traditioneel schalen. Grotere modellen garanderen niet langer betere prestaties in de echte wereld. Zoals Artificial Analytics opmerkt, zijn veel benchmarks al verzadigd, waardoor de industrie in de richting van evaluaties wordt geduwd die zijn gebaseerd op economisch nut en niet alleen op abstracte gronden.
MiroMind zet in op interactieve schaling: het vergroten van de mogelijkheden door diepere interacties met tools in plaats van een steeds groter aantal parameters. Als dit waar is, zou dit geavanceerde agenten in infrastructuur mogelijk kunnen maken die niet afhankelijk zijn van dure grens-API’s.
Het bedrijf, opgericht door Tianqiao Chen en AI-wetenschapper Jifeng Dai, beschrijft zijn missie als het bouwen van ‘Native Intelligence’: AI die redeneert door middel van interactie, niet door memoriseren.
Of deze aanpak dominant wordt of een nichebenadering blijft, blijft een open vraag. Maar voor bedrijven die worstelen met de afweging tussen kosten en capaciteit biedt MiroThinker 1.5 een interessant datapunt: soms is het belangrijker om een model te leren hoe onderzoek te doen dan het te leren alles te onthouden.


