Home Nieuws Nieuwe trainingsmethoden verbeteren het multimodale redeneren van AI met kleinere, slimmere datasets

Nieuwe trainingsmethoden verbeteren het multimodale redeneren van AI met kleinere, slimmere datasets

21
0
Nieuwe trainingsmethoden verbeteren het multimodale redeneren van AI met kleinere, slimmere datasets

Onderzoekers van MiroMind AI en verschillende Chinese universiteiten hebben het vrijgegeven Open MMReasonerEen nieuw trainingskader dat de mogelijkheden van taalmodellen in multimodaal redeneren verbetert.

Dit raamwerk maakt gebruik van een proces in twee fasen. Ten eerste verfijnt het het basismodel met een samengestelde dataset in een begeleide verfijningsfase (SFT). Vervolgens begeleidt een fase van versterkend leren (RL) het model om effectiever te redeneren bij taken waarbij tekst en visuele gegevens betrokken zijn.

Experimenten tonen aan dat modellen die zijn getraind met OpenMMReasoner beter presteren dan andere toonaangevende modellen voor visueel redeneren, vaak wanneer ze worden getraind op kleinere datasets van hogere kwaliteit. Het raamwerk en al zijn middelen, inclusief vooraf getrainde 7B-modellen, zijn volledig open source en bieden een betrouwbare basis voor het bouwen van applicaties die traceerbaarheid en robuustheid vereisen.

Volgens Kaichen Zhang, een van de auteurs van het onderzoeksartikel waarin de nieuwe methode wordt uiteengezet, biedt OpenMMReasoner aanzienlijke voordelen voor bedrijven die niet alleen afhankelijk zijn van grote, gesloten systemen. “Kleinere open source redeneringsmodellen hebben praktische voordelen: bedrijven kunnen ze lokaal inzetten, de latentie verminderen, de tokenkosten die gepaard gaan met lange redeneerketens verlagen, de volledige controle over hun gegevens behouden en ze kunnen worden afgestemd op hun specifieke downstream-taken”, vertelde hij aan VentureBeat.

De uitdaging van transparant multimodaal redeneren

Recente ontwikkelingen op het gebied van versterkend leren met verifieerbare beloningen (RLVR) hebben de redeneermogelijkheden van grote taalmodellen (LLM) aanzienlijk verbeterd. RLVR traint LLM’s om te verdienen reeks gedachten (CoT) tokens (die het redeneringsproces dat mensen gebruiken nabootsen) voordat ze een definitief antwoord opleveren. Dit verbetert het vermogen van het model om complexe redeneringstaken zoals wiskunde en coderen op te lossen.

Gemotiveerd door dit succes hebben onderzoekers vergelijkbare op RL gebaseerde methoden geïmplementeerd grote multimodale modellen (LMM’s), wat aantoont dat de voordelen ervan verder kunnen reiken dan tekst en het visuele begrip en de probleemoplossing op meerdere modaliteiten kunnen verbeteren.

Het gebrek aan transparantie in de opleidingstrajecten is echter een groot obstakel geweest. Veel onderzoeken naar multimodaal redeneren bieden geen gedetailleerde informatie over hun datacuratie- en trainingsprocessen, waardoor het moeilijk wordt om de resultaten ervan te reproduceren of te begrijpen wat deze modellen succesvol maakt.

“Dit gebrek aan openheid beperkt de reproduceerbaarheid en vertroebelt een dieper begrip van hoe redeneervaardige LMM’s daadwerkelijk worden gebouwd en hoe hun trainingsdynamiek evolueert”, merken de onderzoekers op.

OpenMMReasoner-recept

OpenMMReasoner pakt deze kloof aan met volledig transparante en schaalbare trainingsrecepten die zijn gebouwd op open source LMM’s. Onderzoekers erkennen het belang van het construeren van datasets van hoge kwaliteit door de datadiversiteit te vergroten. Hoewel het gebruik van diverse gegevensbronnen belangrijk is, is het vergroten van de diversiteit aan correcte antwoorden op dezelfde vraag een belangrijke spil voor verbetering.

De eerste fase van dit recept is een pijplijn met toezicht op fijnafstelling (SFT) in drie stappen. Dit begon met gegevensbronnen, waarbij het team ongeveer 103.000 onbewerkte vraag-antwoordparen verzamelde uit openbare datasets die veel voorkomende visuele vraag-en-antwoord- en redeneringstaken bevatten. Vervolgens voegen ze gegevens toe destillatie stapmet behulp van een robuust model (Qwen3-VL-235B-Instrueer) om nieuwe redeneersporen van hoge kwaliteit te genereren voor geselecteerde vragen. (De gegevens worden vervolgens gebruikt om een ​​kleiner model te trainen.)

OpenMMReasoner SFT- en RL-pijplijn (bron: arXiv)

Om de diversiteit aan antwoorden te vergroten, heeft het team voor elke vraag meerdere geverifieerde redeneersporen gegenereerd. Dit breidt de dataset uit tot 583.000 monsters. Ten slotte pasten ze een fase van ‘domeinmenging’ toe, waarbij gegevens uit het domein van wiskundig redeneren werden toegevoegd om de mogelijkheden van het model verder te generaliseren, resulterend in een uiteindelijke SFT-dataset van 874.000 voorbeelden.

De tweede fase is een RL-recept dat een kleinere dataset gebruikt met 74.000 monsters, samengesteld uit domeinen zoals wetenschap, wiskunde en puzzels. Het model is getraind met een gecombineerde beloningsfunctie die rekening houdt met de juistheid van het uiteindelijke antwoord en de consistentie van het uitvoerformaat. Om de efficiëntie te vergroten, omvat dit proces een boete voor ‘overdenken’, waardoor modellen worden ontmoedigd om te lange antwoorden te geven (een probleem met veel redeneermodellen die via RL zijn getraind en die ten onrechte leren redeneerreeksen te produceren die te lang zijn, wat resulteert in overhead en langzamere antwoorden).

Dit recept kan een blauwdruk bieden voor bedrijven die hun eigen modellen trainen. “Voor bedrijven met beperkte domeinspecifieke gegevens is het een haalbare strategie om eerst de diversiteit aan antwoorden voor hun bestaande datasets te vergroten en vervolgens domeinmenging te gebruiken om deze domeingegevens te integreren in een algemeen redeneringsrecept zoals het onze”, legt Zhang uit. “Hierdoor kunnen modellen sterke algemene redeneervaardigheden verwerven en zich tegelijkertijd aanpassen aan branchespecifieke taken, zonder dat er miljoenen monsters nodig zijn.”

Een efficiënter en capabeler redeneermodel

Volgens Zhang verandert het stapsgewijze proces de betrouwbaarheid van de modeluitvoer fundamenteel. “Traditionele modellen ‘springen’ vaak rechtstreeks naar een antwoord, wat betekent dat ze slechts een klein deel van de redeneerruimte verkennen,” zei hij. “Een op redeneren gerichte benadering dwingt het model daarentegen om expliciet meerdere tussenstappen te onderzoeken… (waardoor het mogelijk wordt gemaakt) om diepere paden te bewandelen en tot antwoorden te komen met een veel grotere interne consistentie.”

De onderzoekers gebruikten het OpenMMReasoner-recept om gegevens te genereren om het open source vision-taalmodel Qwen2.5-VL-7B-Instruct te verbeteren. Het resultaat is een zeer capabel LMM dat consequent beter presteert dan de modernste methoden, b.v Open visie-redeneerder (OVR), via benchmarks voor multimodaal redeneren. De SFT-fase zelf creëert een krachtig basismodel dat superieure prestaties en gegevensefficiëntie behaalt in vergelijking met andere SFT-benaderingen, ondanks het gebruik van een veel kleinere trainingsdataset.

Volgende fases van RL verscherpen en stabiliseren deze mogelijkheden verder, wat resulteert in consistentere en betere prestaties. Na RL behaalt het uiteindelijke model state-of-the-art resultaten op verschillende benchmarks, waaronder WeMath, MathVerse en MathVista.

OpenMMReasoner-prestaties

Modellen die zijn getraind met OpenMMReasoner presteren beter dan andere technieken op belangrijke benchmarks (bron: arXiv)

Een van de belangrijkste bevindingen was dat, naarmate het model verbeterde op het gebied van multimodaal redeneren, het ook “de geleidelijke opkomst van tekstueel redeneergedrag liet zien, wat wijst op een overdracht van redeneercompetentie van het multimodale domein naar het puur taalkundige domein”, merkten de onderzoekers op. Dit suggereert dat vaardigheden die in de ene modaliteit worden geleerd, de prestaties in een andere modaliteit kunnen versterken.

“Onze resultaten laten zien dat het versterken van multimodaal redeneren zelfs de wiskundige vaardigheden met alleen tekst kan verbeteren – een bewijs dat kernlogische vaardigheden kunnen worden overgedragen tussen modaliteiten”, aldus Zhang. “In de toekomst hopen we dat deze methode kan worden toegepast op video en audio.”

De onderzoekers ontdekten ook dat token-efficiëntie erg belangrijk is. Hoewel het toestaan ​​van het model om langere redeneerstappen te genereren de prestaties kan verbeteren, verminderen overmatige tokens de efficiëntie. De resultaten laten zien dat het instellen van een kleiner ‘redeneerbudget’ een vergelijkbare of zelfs betere nauwkeurigheid kan bereiken, een belangrijke overweging bij het inzetten van kosteneffectieve bedrijfsapplicaties.

Door alle componenten zijn open source Dankzij hun workflow bieden de onderzoekers een reproduceerbaar beeld van het hele proces. Voor ondernemingsteams is deze transparantie van onschatbare waarde. “Voor bedrijfsleiders die zich zorgen maken over de afhankelijkheid van leveranciers, verborgen vooroordelen of onduidelijke gegevensbronnen, is dit niveau van transparantie van cruciaal belang”, aldus Zhang. “Hierdoor kunnen teams gegevens valideren, paden aanpassen voor nieuwe domeinen en op lange termijn onafhankelijk blijven van welke provider dan ook.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in