Originele versie van dit verhaal verscheen erin Kuanta-tijdschrift.
Hier is een test voor baby’s: laat ze een glas water op tafel zien. Verstop je achter een houten plank. Verplaats nu het bord naar het glas. Als het bord door het glas blijft gaan, alsof het glas er niet is, zijn ze dan verrast? Veel kinderen zijn pas zes maanden oud, en als ze een jaar oud zijn, hebben bijna alle kinderen een intuïtief idee van de duurzaamheid van objecten, geleerd door observatie. Nu doen sommige modellen voor kunstmatige intelligentie hetzelfde.
Onderzoekers hebben een AI-systeem ontwikkeld dat de wereld bestudeert via video’s en het idee van ‘verrassing’ vertoont wanneer het informatie krijgt aangeboden die in tegenspraak is met reeds verworven kennis.
Het model gemaakt door Meta en genaamd Video Joint Embedding Predictive Architecture (V-JEPA) doet geen enkele aanname over de fysica van de wereld in de video. Niettemin kan het beginnen te begrijpen hoe de wereld werkt.
“Hun beweringen zijn a priori zeer plausibel, en de resultaten zijn zeer interessant”, zei hij Micha Heilbroneen cognitief wetenschapper aan de Universiteit van Amsterdam die onderzoekt hoe de hersenen en kunstmatige systemen de wereld begrijpen.
Hogere abstractie
Zoals ingenieurs die zelfrijdende auto’s bouwen weten, kan het moeilijk zijn om een AI-systeem op betrouwbare wijze te laten begrijpen wat het ziet. De meeste systemen die zijn ontworpen om een video te ‘begrijpen’ om de inhoud ervan te classificeren (bijvoorbeeld iemand die tennis speelt) of om de contouren van een object te identificeren (bijvoorbeeld een auto verderop) werken in wat ‘pixelruimte’ wordt genoemd. Dit model behandelt in wezen elke pixel in de video met hetzelfde belang.
Dit pixelruimtemodel heeft echter beperkingen. Stel je voor dat je een straat in een buitenwijk probeert te begrijpen. Als de scène auto’s, verkeerslichten en bomen bevat, kan het model zich te veel concentreren op irrelevante details zoals bladbewegingen. Het komt mogelijk niet overeen met de kleur van het verkeerslicht of met de positie van auto’s in de buurt. “Als je naar een afbeelding of video kijkt, wil je niet in de (pixel)ruimte werken, omdat er te veel details zijn die je niet wilt modelleren”, zegt Randall Balestrieroeen computerwetenschapper aan de Brown University.


