Een onderzoeksteam onder leiding van Nvidia is vrijgegeven DroomDojoeen nieuw AI-systeem dat is ontworpen om robots te leren omgaan met de fysieke wereld door tienduizenden uren menselijke video te bekijken – een ontwikkeling die de tijd en kosten die nodig zijn om de volgende generatie mensachtige machines te trainen aanzienlijk zou kunnen verminderen.
Dat onderzoekdeze maand gepubliceerd en bevat medewerkers van UC Berkeley, StanfordDat Universiteit van Texas in Austinen verschillende andere instellingen introduceerden wat het team ‘een uniek robotwereldmodel noemt dat na de training een sterke generalisatie vertoont naar een grote verscheidenheid aan objecten en omgevingen’.
In principe DroomDojo is wat de onderzoekers omschrijven als een ‘grootschalige videodataset’ bestaande uit ‘44 duizend uur aan diverse menselijke egocentrische video’s, de grootste dataset tot nu toe voor pre-training van wereldmodellen.’ Verzameling van gegevens, gebeld DreamDojo-HVis een dramatische schaalsprong – “15x langere duur, 96x meer vaardigheden en 2.000x meer scènes dan de vorige grootste dataset voor wereldmodeltraining”, aldus de projectdocumentatie.
Binnenin bevindt zich een tweefasig trainingssysteem dat robots leert zien als mensen
Het systeem werkt in twee verschillende fasen. Eerst, DroomDojo “het verkrijgen van uitgebreide fysieke kennis uit grootschalige menselijke datasets door middel van pre-training met latente acties.” Vervolgens ondergaat het een ‘post-training over doelrealisatie met aanhoudende robotactie’ – waarbij het in essentie algemene natuurkunde leert door mensen te observeren en die kennis vervolgens te verfijnen voor specifieke robothardware.
Voor bedrijven die humanoïde robots overwegen, overwint deze aanpak een hardnekkig obstakel. Om robots te leren objecten in ongestructureerde omgevingen te manipuleren, zijn doorgaans grote hoeveelheden robotspecifieke demonstratiegegevens nodig; het verzamelen ervan is duur en tijdrovend. DroomDojo vermijdt dit probleem door gebruik te maken van bestaande menselijke video, waardoor de robot kan leren van observaties voordat hij een fysiek object aanraakt.
Eén van de technische doorbraken is snelheid. Door het destillatieproces bereikten de onderzoekers “realtime interactie bij 10 FPS gedurende meer dan 1 minuut” – een mogelijkheid die praktische toepassingen mogelijk maakt, zoals live teleoperatie en on-the-fly planning. Het team demonstreerde dat het systeem werkt op verschillende robotplatforms, waaronder GR-1, G1, AgiBotEn YAM humanoïde robot, die wat zij noemen ‘realistische actie-geconditioneerde lanceringen’ demonstreert in ‘een verscheidenheid aan omgevingen en objectinteracties’.
Waarom Nvidia groot inzet op robotica nu de uitgaven voor AI-infrastructuur enorm stijgen
De lancering komt op een sleutelmoment voor de robotica-ambities van Nvidia – en voor de bredere AI-industrie. In Wereld Economisch Forum CEO Jensen Huang verklaarde vorige maand in Davos dat AI-robotica een ‘once in a generatie’-kans vertegenwoordigde, vooral voor regio’s met een sterke industriële basis. Volgens digitale tijdHuang verklaarde ook dat het komende decennium een “kritieke periode zal zijn voor de versnelde ontwikkeling van roboticatechnologie”.
De financiële belangen zijn enorm. Huang vertelde op 6 februari in het “Halftime Report” van CNBC dat de kapitaaluitgaven van de technologie-industrie – die dit jaar mogelijk $660 miljard van grote hyperscalerbedrijven bereiken – “gerechtvaardigd, passend en duurzaam.” Hij beschreef het huidige moment als ‘de grootste infrastructuuruitbreiding in de menselijke geschiedenis’, waarbij bedrijven als Meta, Amazon, Google en Microsoft hun AI-uitgaven aanzienlijk verhogen.
Deze infrastructuurpush heeft het roboticalandschap veranderd. Robotica-startup slaagt erin records te breken 26,5 miljard dollar in 2025Dat blijkt uit gegevens van Dealroom. Europese industriële reuzen incl Siemens, Mercedes-BenzEn Volvo had vorig jaar een robotica-partnerschap aangekondigd, terwijl Tesla-CEO Elon Musk hetzelfde heeft beweerd 80 procent De toekomstige waarde van zijn bedrijf zal komen van de mensachtige robot Optimus.
Hoe DreamDojo de implementatie en het testen van bedrijfsrobots kan transformeren
Voor technische besluitvormers die humanoïde robots evalueren, ligt de meest directe waarde van DreamDojo wellicht in de simulatiemogelijkheden. De onderzoekers benadrukten downstream-toepassingen, waaronder “betrouwbare beleidsevaluatie zonder implementatie in de echte wereld en op modellen gebaseerde planning voor verbeterde testtijd” – mogelijkheden waarmee bedrijven het gedrag van robots uitgebreid kunnen simuleren voordat ze dure fysieke tests uitvoeren.
Dit is belangrijk omdat de kloof tussen laboratorium- en fabrieksdemonstraties groot blijft. Robots die perfect presteren onder gecontroleerde omstandigheden hebben vaak moeite om om te gaan met de onvoorspelbare variaties van echte omgevingen – verschillende verlichting, onbekende objecten, onverwachte obstakels. Door 44.000 uur aan diverse menselijke videobeelden te trainen, verspreid over duizenden scènes en bijna 100 verschillende vaardigheden, wil DreamDojo algemene fysieke intuïties opbouwen die robots aanpasbaar en minder kwetsbaar maken.
Het onderzoeksteam, geleid door Linxi “Jim” Fan, Joel Jang en Yuke Zhu, met Shenyuan Gao en William Liang als eerste auteurs, heeft aangegeven dat de code voor het publiek zal worden vrijgegeven, hoewel het tijdsbestek niet is gespecificeerd.
Het grotere geheel: Nvidia’s transformatie van gaminggigant naar robotica-krachtpatser
Of DroomDojo vertaald in commerciële roboticaproducten valt nog te bezien. Maar het onderzoek geeft aan waar de ambities van Nvidia naartoe gaan, nu het bedrijf zich steeds verder positioneert buiten zijn gamingwortels. Als Kyle Barr observeert bij Gizmodo eerder deze maand beschouwt Nvidia nu “alles wat met gaming en ‘personal computers’ te maken heeft” als “een uitschieter in Nvidia’s kwartaalspreadsheet.”
Deze verschuiving weerspiegelt een berekende gok: dat de toekomst van computers fysiek zal zijn, en niet alleen digitaal. Nvidia heeft geïnvesteerd $10 miljard aan Antropisch en zinspeelde op plannen om zwaar te investeren in de volgende financieringsronde van OpenAI. DreamDojo suggereert dat bedrijven humanoïde robots zien als een grens waar AI-expertise en chipdominantie kunnen samenkomen.
Voorlopig vertegenwoordigt de 44.000 uur aan menselijke video die de kern vormt van DreamDojo iets fundamentelers dan een technische maatstaf. Ze vertegenwoordigen een theorie: dat robots kunnen leren navigeren in onze wereld door ons erin te zien leven. Het bleek dat de machines aantekeningen hadden gemaakt.



