Home Nieuws Drie manieren waarop AI de fysieke wereld leert begrijpen

Drie manieren waarop AI de fysieke wereld leert begrijpen

1
0
Drie manieren waarop AI de fysieke wereld leert begrijpen

Grote taalmodellen worden geconfronteerd met beperkingen op domeinen die begrip van de fysieke wereld vereisen – van robotica tot autonome voertuigen tot productie. Deze obstakels moedigen beleggers aan dit te doen wereldmodelmet AMI Labs heeft $1,03 miljard aan startfinanciering opgehaald kort daarna World Labs heeft 1 miljard dollar opgehaald.

Grote taalmodellen (LLM’s) blinken uit in het verwerken van abstracte kennis door het voorspellen van opeenvolgende tokens, maar ze missen fundamenteel een basis van fysieke causaliteit. Ze kunnen de fysieke gevolgen van acties in de echte wereld niet op betrouwbare wijze voorspellen.

AI-onderzoekers en opinieleiders spreken steeds vaker over deze beperkingen, nu de industrie AI uit webbrowsers naar fysieke ruimtes probeert te duwen. In een interview met een podcaster Dwarkesh PatelTuring Award-ontvanger Richard Sutton waarschuwt dat LLM’s slechts imiteren wat mensen zeggen in plaats van de wereld te modelleren, wat hun vermogen beperkt om van ervaringen te leren en zich aan te passen aan veranderingen in de wereld.

Dit is de reden waarom modellen op basis van LLM, incl visie taalmodel (VLM), kan broos en gebroken gedrag vertonen met slechts kleine veranderingen in de input.

CEO van Google DeepMind Demis Hassabis herhaalde dit sentiment in een ander interview en wees erop dat de huidige AI-modellen “ongelijke intelligentie” hebben. Ze kunnen complexe wiskundeolympiades voltooien, maar slagen niet in de basisfysica omdat ze belangrijke vaardigheden missen met betrekking tot de dynamiek in de echte wereld.

Om dit probleem aan te pakken, richten onderzoekers hun aandacht op het bouwen van modellen van de wereld die fungeren als interne simulatoren, waardoor AI-systemen veilig hypothesen kunnen testen voordat ze fysieke actie ondernemen. ‘Wereldmodel’ is echter een overkoepelende term die verschillende architecturale benaderingen omvat.

Dit heeft geresulteerd in drie verschillende architecturale benaderingen, elk met verschillende afwegingen.

JEPA: gemaakt in realtime

De eerste belangrijke benadering richt zich op het leren van latente representaties in plaats van te proberen de dynamiek van de wereld op pixelniveau te voorspellen. Deze methode wordt mogelijk gemaakt door AMI Labs en is er sterk op gebaseerd Co-inbedding van voorspellende architectuur (JEPA).

Het JEPA-model probeert de manier te imiteren waarop mensen de wereld begrijpen. Wanneer we de wereld observeren, onthouden we niet elke pixel of irrelevante detail in een scène. Als u bijvoorbeeld een auto over de weg ziet rijden, volgt u zijn traject en snelheid; Je hebt niet de exacte reflectie van het licht op elk boomblad op de achtergrond berekend.

V-JEPA Architectuur (bron: Meta FAIR)

Het JEPA-model reproduceert deze menselijke cognitieve snelkoppelingen. In plaats van een neuraal netwerk te dwingen precies te voorspellen hoe het volgende frame van een video eruit zal zien, leert het model een kleinere reeks abstracte of ‘latente’ kenmerken. Het negeert irrelevante details en concentreert zich volledig op de kernregels van hoe de elementen in de scène op elkaar inwerken. Dit maakt het model robuust tegen achtergrondruis en kleine veranderingen die andere modellen kapot maken.

Deze architectuur is zeer efficiënt op het gebied van computergebruik en geheugen. Door irrelevante details te negeren, zijn er minder trainingsvoorbeelden nodig en wordt deze met een veel lagere latentie uitgevoerd. Deze kenmerken maken het geschikt voor toepassingen waarbij efficiëntie en realtime gevolgtrekking niet onderhandelbaar zijn, zoals robotica, zelfrijdende auto’s en risicovolle bedrijfsworkflows.

AMI werkte bijvoorbeeld samen met gezondheidszorgbedrijf Nabla om deze architectuur te gebruiken om de operationele complexiteit te simuleren en de cognitieve belasting in snelle gezondheidszorgomgevingen te verminderen.

Yann LeCun, JEPA-architectuurpionier en medeoprichter van AMI, legt dat uit wereldmodel gebaseerd op JEPA ontworpen om “controleerbaar te zijn in de zin dat je ze doelen kunt geven, en door constructie is het enige wat ze kunnen doen die doelen bereiken” in een interview met Newsweek.

Gaussiaanse vonk: gemaakt voor de ruimte

De tweede benadering is gebaseerd op generatieve modellen om complete ruimtelijke omgevingen vanaf het begin op te bouwen. Geadopteerd door bedrijven als Wereld laboratoriumDeze methode neemt een initieel commando (dat een afbeelding of een tekstuele beschrijving kan zijn) en gebruikt een generatief model om een ​​3D Gaussiaanse splash te creëren. Gaussiaanse splatter is een techniek voor het weergeven van 3D-scènes met behulp van miljoenen kleine wiskundige deeltjes die de geometrie en belichting bepalen. In tegenstelling tot het genereren van platte video’s kunnen deze 3D-representaties rechtstreeks worden geïmporteerd in standaardfysica en 3D-engines, zoals Unreal Engine, waar gebruikers en andere AI-agenten vrijelijk kunnen navigeren en ermee kunnen communiceren vanuit elke hoek.

Het belangrijkste voordeel hiervan is de drastische vermindering van de eenmalige creatietijd en kosten die nodig zijn om complexe interactieve 3D-omgevingen te creëren. Dit pakt het exacte probleem aan dat is geschetst door de oprichter van World Labs, Fei-Fei Li, die opmerkt dat LLM’s uiteindelijk zoiets zijn als “woordenmaker in het donker“heeft bloemrijke taal maar mist ruimtelijke intelligentie en fysieke ervaring. Het Marble-model van World Labs biedt een AI die verstoken is van ruimtelijk inzicht.

Hoewel deze aanpak niet is ontworpen voor real-time uitvoering in een fractie van een seconde, heeft deze een groot potentieel voor ruimtelijk computergebruik, interactief entertainment, industrieel ontwerp en het bouwen van statische trainingsomgevingen voor robotica. De waarde van het bedrijf is duidelijk zichtbaar in Autodesk geweldige ondersteuning van World Labs om dit model te integreren in hun industriële ontwerptoepassingen.

End-to-end generatie: gebouwd voor schaal

De derde benadering maakt gebruik van end-to-end generatieve modellen om gebruikersopdrachten en -acties te verwerken, waarbij voortdurend scènes, fysieke dynamiek en reacties worden gegenereerd. In plaats van een statisch 3D-bestand naar een externe fysica-engine te exporteren, fungeert het model zelf als de engine. Het neemt initiële commando’s op samen met een continue stroom van gebruikersacties, en genereert daaropvolgende omgevingsframes in realtime, computerfysica, verlichting en objectreacties.

met dank aan DeepMind Jin 3 en behoort tot Nvidia Kosmos valt in deze categorie. Dit model biedt een zeer eenvoudige interface om naadloze interactieve ervaringen en grote hoeveelheden synthetische gegevens te genereren. DeepMind demonstreerde dit native met Genie 3laat zien hoe het model een strikte objectduurzaamheid en consistente fysica handhaaft met 24 frames per seconde zonder afhankelijk te zijn van een afzonderlijke geheugenmodule.

Deze aanpak vertaalt zich rechtstreeks in krachtige synthetische datafabrieken. Nvidia Cosmos gebruikt deze architectuur om synthetische data en fysieke AI-redeneringen te schalen, waardoor ontwikkelaars van autonome voertuigen en robotica zeldzame en gevaarlijke edge-case-omstandigheden kunnen synthetiseren zonder de kosten of het risico van fysieke tests. uitweg (mede-dochteronderneming van Alphabet) bouwde zijn wereldmodel op Genie 3 en paste het aan om zijn zelfrijdende auto’s te trainen.

Het nadeel van deze end-to-end generatieve methoden is de grote rekenkundige overhead die nodig is om fysica en pixels continu tegelijkertijd weer te geven. Deze investeringen zijn echter noodzakelijk om de visie van Hassabis te verwezenlijken, die stelt dat een diep intern begrip van fysieke causaliteit noodzakelijk is omdat AI momenteel niet over de kritische capaciteiten beschikt om veilig in de echte wereld te kunnen opereren.

Volgende: hybride architectuur

LLM zal blijven functioneren als een redeneer- en communicatie-interface, maar het wereldmodel positioneert zichzelf als de basisinfrastructuur voor fysieke en ruimtelijke gegevensroutes. Naarmate de onderliggende modellen volwassener worden, zien we de opkomst van hybride architecturen die de sterke punten van elke aanpak benutten.

Bijvoorbeeld de recent ontwikkelde cybersecurity-startup DeepTempo LogLMmodel dat elementen uit LLM en JEPA integreert om afwijkingen en cyberdreigingen uit beveiligings- en netwerklogboeken te detecteren.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in