Om een samenhangend beeld of video te creëren, vertrouwen generatieve AI-diffusiemodellen zoals Stable Diffusion of FLUX doorgaans op externe ‘leraren’ (bevroren encoders zoals CLIP of DINOv2) om semantisch inzicht te verschaffen dat ze niet zelfstandig kunnen leren.
Maar deze afhankelijkheid brengt een prijs met zich mee: er is een ‘knelpunt’ waarbij het uitbreiden van het model niet langer betere resultaten oplevert omdat externe leraren hun grenzen hebben bereikt.
Momenteel is de Duitse AI-startup Dat heeft Black Forest Labs (makers van de FLUX-serie AI-beeldmodellen) bekendgemaakt het potentiële einde van dit tijdperk van academisch lenen Zelfstroom-vrijgaveeen zelfbeheerd raamwerk voor flowmatching waarmee modellen tegelijkertijd representatie en generatie kunnen leren.
Door een nieuw Dual-Timestep Scheduling-mechanisme te integreren heeft Black Forest Labs aangetoond dat een enkel model geavanceerde resultaten kan behalen op het gebied van afbeeldingen, video en audio zonder extern toezicht.
Technologie: de ‘semantische kloof’ doorbreken
Het fundamentele probleem met traditionele generatieve training is dat het een “frustrerende” taak is. Het model krijgt ruis te zien en wordt gevraagd een afbeelding te vinden; er is heel weinig reden om het plaatje te begrijpen, alleen hoe het eruit ziet.
Om dit te ondervangen hebben eerdere onderzoekers generatieve eigenschappen ‘op één lijn gebracht’ met externe discriminerende modellen. Black Forest Labs stelt echter dat dit inherent gebrekkig is: deze externe modellen werken vaak met incongruente doelen en slagen er niet in om te generaliseren over modaliteiten zoals audio of robotica.
De nieuwe techniek van Labs, Self-Flow, introduceert ‘informatie-asymmetrie’ om dit probleem aan te pakken. Met behulp van een techniek genaamd Dual-Timestep Scheduling past het systeem verschillende ruisniveaus toe op verschillende delen van de invoer. Leerlingen ontvangen een zeer corrupte versie van de gegevens, terwijl de docent – een versie van het Exponential Moving Average (EMA)-model zelf – een ‘schonere’ versie van dezelfde gegevens ziet.
De leerling wordt dan niet alleen belast met het produceren van het eindresultaat, maar ook met het voorspellen van wat zijn ‘schonere’ zelf ziet – een zelfverfijnend proces waarin de leraar zich op laag 20 bevindt en de leerling op laag 8. Deze ‘Double Pass’-benadering dwingt het model om een diep intern begrip van de semantiek te ontwikkelen, waardoor hij zichzelf effectief leert hoe hij moet zien en tegelijkertijd leert creëren.
Productimplicaties: sneller, scherper en multimodaal
De praktische resultaten van deze veranderingen zijn zeer reëel. Volgens het onderzoekspaper convergeert Self-Flow ongeveer 2,8x sneller dan de REpresentation Alignment (REPA)-methode, de huidige industriestandaard voor het uitlijnen van functies. Misschien nog belangrijker is dat het niet stagneert; Naarmate de berekeningen en parameters verbeteren, blijft Self-Flow verbeteren, terwijl oudere methoden een afnemend rendement laten zien.
De sprong in trainingsefficiëntie kan het beste worden begrepen door de lens van ruwe computerstappen: terwijl standaard ‘vanille’-training doorgaans 7 miljoen stappen vereist om een basisprestatieniveau te bereiken, verkort REPA dat traject tot slechts 400.000 stappen, wat een verbetering van 17,5x betekent.
Het Self-Flow-framework van Black Forest Labs verlegt deze limiet nog verder en werkt 2,8x sneller dan REPA om dezelfde prestatiemijlpaal te bereiken in ongeveer 143.000 stappen.
Over het geheel genomen vertegenwoordigt deze evolutie een bijna 50x reductie van het aantal trainingsstappen dat nodig is om resultaten van hoge kwaliteit te bereiken, waardoor een enorme behoefte aan middelen effectief wordt omgezet in een veel toegankelijker en eenvoudiger proces.
Black Forest Labs demonstreerde deze vooruitgang via een multimodaal model met 4B-parameters. Het model is getraind op een grote dataset bestaande uit 200 miljoen afbeeldingen, 6 miljoen video’s en 2 miljoen audio-videoparen en laat aanzienlijke sprongen zien op drie belangrijke gebieden:
-
Typografie en tekstweergave: Een van de meest hardnekkige “verklaringen” van AI-afbeeldingen is verminkte tekst. Self-Flow presteert aanzienlijk beter dan vanilla flow matching bij het weergeven van complexe en gemakkelijk leesbare borden en labels, zoals een neonbord dat correct spelt “FLUX is multimodaal”.
-
Tijdelijke consistentie: Bij het maken van video’s elimineert Self-Flow veel van de ‘hallucinerende’ artefacten die veel voorkomen in de huidige modellen, zoals het spontaan missen van ledematen tijdens het bewegen.
-
Gecombineerde video-audiosynthese: Omdat het model de representatie van nature leert, kan het gesynchroniseerde video en audio produceren met één enkele opdracht, een taak die ervoor zorgt dat externe “geleende” representaties vaak mislukken omdat de beeldencoder geluid niet begrijpt.
In termen van kwantitatieve statistieken behaalt Self-Flow superieure resultaten in vergelijking met concurrerende basislijnen. Op Image FID scoorde het model 3,61 vergeleken met REPA’s 3,92. Voor video (FVD) scoorde het 47,81 vergeleken met REPA’s 49,59, en voor audio (FAD) scoorde het 145,65 vergeleken met de vanille-basislijn van 148,87.
Van pixels tot planning: de weg naar een wereldmodel
De aankondiging wordt afgesloten met een blik op wereldmodellen: AI die niet alleen prachtige beelden produceert, maar ook de onderliggende fysica en logica van een scène voor planning en robotica begrijpt.
Door de parameters van de Self-Flow-versie 675M op de RT-1-roboticadataset te verfijnen, bereikten de onderzoekers aanzienlijk hogere succespercentages bij complexe, uit meerdere stappen bestaande taken in de SIMPLER-simulator. Hoewel standaard flowmatching worstelt met de complexe ‘Open and Place’-taak en vaak jammerlijk faalt, handhaaft het Self-Flow-model een stabiel succespercentage, wat aangeeft dat de interne representatie ervan robuust genoeg is voor visueel redeneren in de echte wereld.
Implementatie en technische details
Voor onderzoekers die deze bewering willen verifiëren: Black Forest Labs heeft een inferentiesuite op GitHub uitgebracht specifiek voor de ImageNet 256×256-generatie. Dit project, voornamelijk geschreven in Python, biedt een SelfFlowPerTokenDiT-modelarchitectuur gebaseerd op SiT-XL/2.
Ingenieurs kunnen het meegeleverde sample.py-script gebruiken om 50.000 afbeeldingen te genereren voor standaard FID-evaluatie. De repository benadrukt dat de belangrijkste architectonische wijziging in deze implementatie tijdstapconditionering per token is, waardoor elk token in de reeks kan worden geconditioneerd op een specifieke interrupttijdstap. Tijdens de training maakt het model gebruik van gemengde precisie BFloat16 en AdamW-optimizer met gradiëntclipping om de stabiliteit te behouden.
Licentie en beschikbaarheid
Zwarte Woud Labs heeft een onderzoekspaper schrijven En De officiële inferentiecode is beschikbaar via GitHub en hun onderzoeksportaal. Hoewel dit zich nog in de onderzoeksfase bevindt, suggereert de staat van dienst van het bedrijf met de FLUX-modelfamilie dat deze innovatie in de nabije toekomst waarschijnlijk zal worden toegepast op commerciële API’s en open gewichtsaanbiedingen.
Voor ontwikkelaars is de overstap van externe encoders een enorme zegen in termen van efficiëntie. Dit elimineert de noodzaak om tijdens de training afzonderlijke, logge modellen zoals DINOv2 te beheren, vereenvoudigt de stapel en maakt meer gespecialiseerde en domeinspecifieke training mogelijk die niet afhankelijk is van het ‘bevroren’ begrip van de wereld van iemand anders.
Conclusies voor technische besluitvormers en adoptanten van ondernemingen
Voor het bedrijf betekent de komst van Self-Flow een aanzienlijke verschuiving in de kosten-batenanalyse bij de eigen AI-ontwikkeling.
Hoewel de meest directe begunstigden organisaties zijn die grootschalige modellen helemaal opnieuw trainen, toont onderzoek aan dat deze technologie even krachtig is voor afstemming op hoge resolutie. Omdat deze methode bijna drie keer sneller convergeert dan de huidige standaarden, kunnen bedrijven state-of-the-art resultaten behalen met minder traditioneel computerbudget.
Deze efficiëntieverbeteringen stellen bedrijven in staat om af te stappen van kant-en-klare generieke oplossingen en aangepaste modellen te ontwikkelen die nauw aansluiten bij hun specifieke datadomeinen, of het nu gaat om aangepaste medische beeldvorming of bedrijfseigen industriële sensorgegevens.
De praktische toepassing van deze technologie strekt zich uit tot industriële sectoren met een hoog risico, met name robotica en autonome systemen. Door gebruik te maken van het vermogen van het raamwerk om ‘wereldmodellen’ te leren, kunnen bedrijven in de productie- en logistieke sector vision-taal-actie (VLA)-modellen ontwikkelen met een superieur begrip van de fysieke ruimte en sequentieel redeneren.
Bij simulatietests zorgde Self-Flow ervoor dat de robotcontroller met succes complexe taken met meerdere objecten kon uitvoeren, zoals het openen van een la om er een item in te plaatsen, waar traditionele generatieve modellen faalden. Dit toont aan dat deze technologie een fundamenteel hulpmiddel is voor elk bedrijf dat de kloof wil overbruggen tussen het creëren van digitale inhoud en fysieke automatisering in de echte wereld.
Naast prestatieverbeteringen biedt Self-Flow strategische voordelen voor bedrijven door de onderliggende AI-infrastructuur te vereenvoudigen. De meeste generatieve systemen van vandaag zijn ‘Frankenstein’-modellen die complexe externe semantische encoders vereisen en die vaak eigendom zijn van en gelicentieerd zijn door derden.
Door representatie en generatie in één enkele architectuur te verenigen, stelt Self-Flow bedrijven in staat deze externe afhankelijkheden te elimineren, de technische schulden te verminderen en de ‘knelpunten’ weg te nemen die gepaard gaan met de schaalvergroting door goeroes van derden. Dit zelfvoorzienende karakter zorgt ervoor dat naarmate een bedrijf zijn computer- en dataniveau opschaalt, de modelprestaties even voorspelbaar zijn, wat een duidelijker ROI oplevert voor AI-investeringen op de lange termijn.


