De meeste talen gebruiken woordpositie en zinsstructuur om betekenis te extraheren. ‘De kat zat op de doos’ is bijvoorbeeld niet hetzelfde als ‘De doos zat op de kat’. In lange teksten, zoals financiële documenten of romans, zal de syntaxis van deze woorden waarschijnlijk evolueren.
Op dezelfde manier kan iemand variabelen in een stukje code volgen of instructies volgen die voorwaardelijke acties hebben. Dit is een voorbeeld van de staatsveranderingen en de sequentiële redenering waarvan we verwachten dat geavanceerde kunstmatige-intelligentiesystemen zullen uitblinken; de bestaande state-of-the-art aandachtsmechanismen in transformers – de belangrijkste architectuur die wordt gebruikt in grote taalmodellen (LLM’s) om de belangrijkheid van woorden te bepalen – hebben echter theoretische en empirische beperkingen in termen van dergelijke mogelijkheden.
Dankzij het aandachtsmechanisme kan LLM terugkijken naar het begin van een vraag of document en op basis van de training bepalen welke details en woorden het belangrijkst zijn; Dit mechanisme begrijpt echter zelf de woordvolgorde niet. Het ‘ziet’ alle invoerwoorden, ook wel tokens genoemd, tegelijkertijd en verwerkt ze in de volgorde waarin ze worden gepresenteerd. Daarom hebben onderzoekers technieken ontwikkeld voor het coderen van positionele informatie. Dit is essentieel voor zeer gestructureerde domeinen, zoals talen. De hoofdpositiecoderingsmethode, genaamd rolpositiecodering (RoPE), houdt echter alleen rekening met de relatieve afstand tussen opeenvolgende tokens en is niet afhankelijk van de invoergegevens. Dit betekent bijvoorbeeld dat woorden die vier posities uit elkaar liggen, zoals ‘kat’ en ‘doos’ in het bovenstaande voorbeeld, allemaal dezelfde, vaste wiskundige rotatie zullen krijgen die specifiek is voor die relatieve afstand.
Nu heeft onderzoek onder leiding van MIT en het MIT-IBM Watson AI Lab een codeertechniek opgeleverd die bekend staat als ‘PaTH Attention’ en die positie-informatie adaptief en contextgevoelig maakt, in plaats van statisch, zoals bij RoPE.
“Transformers maken nauwkeurige en schaalbare modellering in veel domeinen mogelijk, maar ze hebben beperkingen als het gaat om het volgen van toestanden, een groep fenomenen waarvan men denkt dat ze ten grondslag liggen aan de kritische mogelijkheden die we in onze AI-systemen willen hebben. De belangrijke vraag is dus: hoe kunnen we de schaalbaarheid en efficiëntie van transformatoren behouden, terwijl we het volgen van de toestand mogelijk maken?” zei de senior auteur van het artikel, Yoon Kim, een professor aan de afdeling Elektrotechniek en Computerwetenschappen (EECS), lid van het Computer Science and Artificial Intelligence Laboratory (CSAIL) en onderzoeker in het MIT-IBM Watson AI Lab.
Een nieuw artikel over dit werk werd eerder deze maand gepresenteerd op de Neural Information Processing Systems (NeurIPS) conferentie. Kim’s co-auteurs zijn onder meer hoofdauteur Songlin Yang, een EECS-afgestudeerde student en voormalig MIT-IBM Watson AI Lab Summer Program-stagiair; Kaiyue Wen van Stanford Universiteit; Liliang Ren van Microsoft; en Yikang Shen, Shawn Tan, Mayank Mishra en Rameswar Panda van IBM Research en het MIT-IBM Watson AI Lab.
Het pad naar begrip
In plaats van een vaste rotatie aan elk woord toe te wijzen op basis van de relatieve afstand tussen tokens, zoals RoPE doet, is PaTH Attention flexibel, waarbij de woorden daartussen worden behandeld als paden die bestaan uit kleine, data-afhankelijke transformaties. Elke transformatie, gebaseerd op een wiskundige bewerking die Householder-reflectie wordt genoemd, fungeert als een kleine spiegel die zichzelf aanpast, afhankelijk van de inhoud van elk token waar het doorheen gaat. Elke stap in een reeks kan van invloed zijn op de manier waarop het model informatie later interpreteert. Door cumulatieve effecten kan het systeem modelleren hoe de betekenis verandert langs het pad tussen woorden, en niet alleen hoe ver ze uit elkaar liggen. Met deze aanpak kan de transformator volgen hoe entiteiten en relaties in de loop van de tijd veranderen, waardoor de indruk wordt gewekt van een ‘positioneel geheugen’. Zie het alsof je over straat loopt terwijl je je omgeving voelt en hoe deze je beïnvloeden. Bovendien heeft het team ook een hardware-efficiënt algoritme ontwikkeld om de aandachtsscores tussen elk paar tokens efficiënter te berekenen, zodat de cumulatieve wiskundige transformatie van PaTH-aandacht wordt gecomprimeerd en opgesplitst in kleinere berekeningen die compatibel zijn met snelle verwerking op GPU’s.
De MIT-IBM-onderzoekers onderzochten vervolgens de prestaties van PaTH Attention op synthetische en reële taken, inclusief redeneren, lange-contextbenchmarks en volledige LLM-training om te zien of dit het vermogen van het model om informatie in de loop van de tijd bij te houden verbeterde. Het team testte zijn vermogen om de nieuwste ‘schrijf’-commando’s te volgen, ondanks veel afleidende stappen en meerstaps terugroeptests, een moeilijke taak voor standaard positiecoderingsmethoden zoals RoPE. De onderzoekers trainden ook een LLM op middelgrote schaal en vergeleken deze met andere methoden. PaTH Attention verbetert de verduistering en presteert beter dan andere methoden in benchmarks voor ongetraind redeneren. Ze evalueren ook het ophalen, redeneren en stabiliteit met tienduizenden tokensinvoer. PaTH Attention heeft steeds bewezen in staat te zijn inhoudsbewustzijn te bereiken.
“We ontdekten dat onze nieuwe aanpak, zowel bij diagnostische taken die zijn ontworpen om de beperkingen van transformatoren te testen als bij taken voor taalmodellering in de echte wereld, beter presteerde dan de bestaande aandachtsmechanismen, terwijl hun efficiëntie behouden bleef”, aldus Kim. Bovendien: “Ik zou graag willen zien of dit soort data-afhankelijke positionele codering, zoals PATH, de prestaties van transformatoren verbetert in gestructureerde domeinen zoals biologie, in (het analyseren van) eiwitten of DNA.”
Denk groter en efficiënter
De onderzoekers onderzochten vervolgens hoe het PaTH-aandachtsmechanisme zou werken als het meer zou lijken op de menselijke cognitie, waarbij we oude of minder relevante informatie negeren bij het nemen van beslissingen. Om dit te doen combineerden ze PaTH Attention met een ander positiecoderingsschema dat bekend staat als Forgetting Transformer (FoX), waardoor het model selectief kan ‘vergeten’. Het resulterende PaTH-FoX-systeem voegt een manier toe om het gewicht van informatie op een data-afhankelijke manier te verminderen, waardoor sterke resultaten worden behaald op het gebied van redeneren, begrip van lange contexten en benchmarks voor taalmodellering. Op deze manier breidt PaTH Attention de expressieve kracht van de transformatorarchitectuur uit.
Kim zei dat dit soort onderzoek deel uitmaakt van een bredere inspanning om het ‘next big thing’ in AI te ontwikkelen. Hij legt uit dat een belangrijke motor van de deep learning en generatieve AI-revolutie de creatie is van ‘bouwstenen voor algemene doeleinden die over brede domeinen kunnen worden toegepast’, zoals ‘convolutionele lagen, RNN-lagen (recurrent neuraal netwerk)’ en, meest recentelijk, transformatoren. Vooruitkijkend merkt Kim op dat overwegingen als nauwkeurigheid, expressiviteit, flexibiliteit en hardwareschaalbaarheid belangrijk zijn en zullen blijven. Zoals hij het stelt: “de kernactiviteit van modern architectuuronderzoek is het proberen nieuwe primitieven te produceren die de expressiviteit behouden of versterken, terwijl ze schaalbaar blijven.”
Dit werk werd gedeeltelijk ondersteund door het MIT-IBM Watson AI Lab en het AI2050-programma bij Schmidt Sciences.



