Onderzoekers bij Google hebben een nieuw AI-paradigma ontwikkeld dat tot doel heeft een van de grootste beperkingen van de hedendaagse grote taalmodellen op te lossen: hun onvermogen om na training kennis te leren of bij te werken. Het paradigma wordt genoemd Genest lerenhet model en de training ervan opnieuw te formuleren, niet als een enkel proces, maar als een systeem van geneste optimalisatieproblemen op meerdere niveaus. De onderzoekers beweren dat deze aanpak expressievere leeralgoritmen zou kunnen ontsluiten, wat zou resulteren in beter in-context leren en geheugen.
Om het concept te bewijzen, gebruikten de onderzoekers Nested Learning om een nieuw model te ontwikkelen, genaamd Hope. Uit eerste experimenten blijkt dat deze technologie superieure prestaties levert op het gebied van taalmodellering, continu leren en redeneertaken met een lange context, wat mogelijk de weg vrijmaakt voor efficiënte AI-systemen die zich kunnen aanpassen aan reële omgevingen.
Geheugenproblemen met grote taalmodellen
Diepgaande leeralgoritmen helpt de noodzaak van zorgvuldige engineering en domeinexpertise te elimineren die vereist is voor traditioneel machine learning. Door modellen grote hoeveelheden data te geven, kunnen ze zelf de benodigde representaties leren. Deze aanpak brengt echter zijn eigen uitdagingen met zich mee die niet kunnen worden opgelost door simpelweg meer lagen op elkaar te stapelen of een groter netwerk te creëren, zoals het generaliseren naar nieuwe gegevens, het voortdurend leren van nieuwe taken en het vermijden van suboptimale oplossingen tijdens de training.
Inspanningen om deze uitdagingen te overwinnen hebben aanleiding gegeven tot innovaties die resultaten hebben opgeleverd transformatorde basis van de huidige grote taalmodellen (LLM). Deze modellen hebben een “paradigmaverschuiving ingeluid van taakspecifieke modellen naar systemen voor meer algemene doeleinden met een breed scala aan mogelijkheden die ontstaan als resultaat van ‘juiste’ architectonische schaalvergroting”, schreven de onderzoekers. Er is echter nog steeds een fundamentele beperking: LLM’s zijn na de training grotendeels statisch en kunnen hun kernkennis niet bijwerken of nieuwe vaardigheden verwerven door nieuwe interacties.
De enige componenten van de LLM die aanpasbaar zijn, zijn de componenten contextueel leren vermogen, waardoor hij taken kan uitvoeren op basis van de onmiddellijk verstrekte informatie. Dit maakt de LLM van vandaag analoog aan iemand die niet in staat is nieuwe langetermijnherinneringen te vormen. Hun kennis is beperkt tot wat ze tijdens de vooropleiding hebben geleerd (verleden) en wat er bestaat in hun huidige context (heden). Wanneer een gesprek buiten het contextvenster gaat, gaat de informatie voor altijd verloren.
Het probleem is dat de huidige op transformatoren gebaseerde LLM’s geen ‘online’ consolidatiemechanisme hebben. De informatie in het contextvenster werkt nooit de langetermijnparameters van het model bij: de gewichten die zijn opgeslagen in de feed-forward-laag. Als gevolg hiervan kunnen modellen niet permanent nieuwe kennis of vaardigheden verwerven uit interacties; wat het ook leert, zal verloren gaan zodra het contextvenster wordt geroteerd.
Geneste leerbenadering
Nested Learning (NL) is ontworpen om computermodellen in staat te stellen te leren van gegevens met behulp van verschillende abstractieniveaus en tijdschalen, zoals de hersenen. Het behandelt een enkel machine learning-model niet als één continu proces, maar als een systeem van onderling verbonden leerproblemen die tegelijkertijd en met verschillende snelheden worden geoptimaliseerd. Dit wijkt af van de klassieke visie, die de modelarchitectuur en het optimalisatie-algoritme als twee afzonderlijke componenten behandelt.
In dit paradigma wordt het trainingsproces gezien als het ontwikkelen van een ‘associatief geheugen’, het vermogen om gerelateerde stukjes informatie met elkaar te verbinden en op te roepen. Het model leert datapunten toe te wijzen aan hun lokale fouten, wat meet hoe “verrassend” de datapunten zijn. Zelfs belangrijke architecturale componenten, zoals aandachtsmechanismen in transformatoren, kunnen worden gezien als eenvoudige associatieve geheugenmodules die toewijzingen tussen tokens leren. Door voor elk onderdeel de updatefrequentie te bepalen, kan dit geneste optimalisatieprobleem worden onderverdeeld in verschillende ‘niveaus’, die de kern vormen van het NL-paradigma.
Hoop om te blijven leren
De onderzoekers brachten deze principes in de praktijk met Hope, een architectuur die is ontworpen om Nested Learning mogelijk te maken. Hope is een aangepaste versie van Titaneen andere architectuur die Google in januari introduceerde om de geheugenbeperkingen van transformatormodellen te overwinnen. Hoewel Titans een krachtig geheugensysteem heeft, worden de parameters ervan slechts op twee verschillende snelheden bijgewerkt: de langetermijngeheugenmodule en het kortetermijngeheugenmechanisme.
Hope is een zelfmodificerende architectuur uitgerust met een “Continuum Memory System” (CMS) dat onbeperkte niveaus van in-context leren mogelijk maakt en kan worden geschaald naar grotere contextvensters. Een CMS fungeert als een reeks geheugenbanken, die elk op een andere frequentie worden bijgewerkt. Banken die sneller updaten, verwerken directe informatie, terwijl langzamere banken meer abstracte kennis over een langere periode consolideren. Hierdoor kan het model zijn eigen geheugen optimaliseren in een zelfrefererende lus, waardoor een architectuur ontstaat met een theoretisch onbeperkte leersnelheid.
Bij een verscheidenheid aan taalmodellerings- en gezond verstand-redeneringstaken vertoont Hope lagere niveaus van verwarring (een maatstaf voor hoe goed het model het volgende woord in een reeks voorspelt en de samenhang behoudt in de tekst die het produceert) en een hogere nauwkeurigheid vergeleken met standaardtransformatoren en andere moderne iteratieve modellen. Hope presteert ook beter bij ‘naald-in-hooiberg’-taken met lange context, waarbij het model specifieke informatie moet vinden en gebruiken die verborgen is in grote hoeveelheden tekst. Dit suggereert dat het CMS een efficiëntere manier biedt om lange sets informatie te verwerken.
Dit is een van de vele pogingen om AI-systemen te creëren die informatie op meerdere niveaus verwerken. Hiërarchisch redeneermodel (HRM) van Sapient Intelligence, maakt gebruik van een hiërarchische architectuur om modellen efficiënter te maken bij het leren van redeneertaken. Kleine modellen van redeneren (TRM), een model van Samsung, verbetert HRM door architecturale veranderingen aan te brengen, waardoor de prestaties verbeteren en tegelijkertijd efficiënter worden.
Hoewel veelbelovend, wordt Nested Learning geconfronteerd met enkele van dezelfde uitdagingen als andere paradigma’s bij het realiseren van het volledige potentieel ervan. De hedendaagse AI-hardware en -software zijn sterk geoptimaliseerd voor klassieke deep learning-architecturen en Transformer-modellen in het bijzonder. Het op grote schaal adopteren van Nested Learning kan fundamentele veranderingen vereisen. Als het echter aan kracht wint, kan het resulteren in een veel efficiëntere en voortdurend lerende LLM, een mogelijkheid die van cruciaal belang is voor echte bedrijfstoepassingen waar omgevingen, gegevens en gebruikersbehoeften voortdurend veranderen.



