Het tijdperk van generatieve AI begon voor de meeste mensen met ChatGPT van OpenAI wordt eind 2022 gelanceerdmaar de onderliggende technologie – de “Transformer” neurale netwerkarchitectuur waarmee AI-modellen het belang van verschillende woorden in een zin (of pixels in een afbeelding) anders kunnen wegen en parallel kunnen trainen op de informatie – dateert uit het artikel van Google uit 2017.Aandacht is alles wat je nodig hebt.”
Hoewel Transformers een ongeëvenaarde modelkwaliteit bieden en de meeste van de belangrijkste generatieve AI-modellen die tegenwoordig in gebruik zijn, hebben ondersteund, zijn ze op rekengebied zeer vraatzuchtig. Ze worden belast door kwadratische computationele en lineaire geheugenvereisten die grootschalige gevolgtrekkingen tot een kostbare en vaak onbetaalbare onderneming maken. Daarom willen sommige onderzoekers het verbeteren door in 2023 een nieuwe architectuur te ontwikkelen, Mamba, die vervolgens wordt opgenomen in hybride Mamba-Transformer-modellen zoals Nemotron 3 Super van Nvidia.
Dezelfde onderzoekers achter de oorspronkelijke architectuur van de Mamba zijn onder meer de leiders Albert Gu van Carnegie Mellon en Tri Dao van Princeton. heeft de nieuwste versie van hun nieuwe architectuur, Mamba-3, uitgebrachtals taalmodel onder de tolerante Apache 2.0 open source-licentie, waardoor het onmiddellijk beschikbaar is voor ontwikkelaars, inclusief bedrijven voor commerciële doeleinden. Technische papieren hebben ze ook is gepubliceerd op arXiv.org.
Dit model signaleert een paradigmaverschuiving van trainingsefficiëntie naar ‘inference-first’-ontwerpen. Zoals Gu in zijn officiële aankondiging onthulde, terwijl Mamba-2 zich concentreerde op het doorbreken van het knelpunt vóór de training, streeft Mamba-3 ernaar het probleem van de ‘koude GPU’ op te lossen: het feit dat moderne hardware tijdens het decoderen vaak inactief blijft, wachtend op geheugenbeweging in plaats van berekeningen uit te voeren.
De verwarring (nee, niet het bedrijf) en de hernieuwde efficiëntie van Mamba 3
Mamba, inclusief Mamba 3, is een type State Space Model (SSM).
Het is eigenlijk een snelle ‘samenvattingsmotor’ voor AI. Terwijl veel populaire modellen (zoals die achter ChatGPT) elk woord dat ze hebben gezien dubbel moeten controleren om te begrijpen wat er gaat gebeuren – wat langzamer en duurder wordt naarmate een gesprek langer duurt – handhaaft SSM een compacte, steeds veranderende interne status. Deze toestand is in wezen een digitale ‘mentale momentopname’ van de hele geschiedenis van de gegevens.
Als er nieuwe informatie binnenkomt, werkt het model eenvoudigweg deze momentopname bij, in plaats van alles vanaf het begin opnieuw te lezen. Hierdoor kan AI grote hoeveelheden informatie verwerken, zoals hele bibliotheken met boeken of lange DNA-reeksen, met ongelooflijke snelheid en veel lagere geheugenvereisten.
Om de sprong te kunnen waarderen die Mamba-3 vertegenwoordigt, moeten we eerst verwarring begrijpen, een belangrijke maatstaf die wordt gebruikt in onderzoek om de modelkwaliteit te meten.
In de context van taalmodellering is verbijstering een maatstaf voor hoe ‘verrast’ een model is door nieuwe gegevens.
Stel je een model voor als een professionele gokker. Als een model veel verwarring kent, weet het niet zeker waar het moet inzetten; het ziet veel mogelijkheden voor het volgende woord om dezelfde waarschijnlijkheid te hebben.
Een lagere verwarringsscore geeft aan dat het model ‘zekerder’ is: het heeft een beter begrip van fundamentele menselijke taalpatronen. Voor AI-makers dient verwarring als een high-fidelity proxy voor intelligentie.
De gerapporteerde doorbraak in het Mamba-3-onderzoek is dat het een complexiteit bereikt die vergelijkbaar is met zijn voorganger, Mamba-2, maar slechts de helft van de staten gebruikt. Dit betekent dat een model net zo intelligent kan zijn en tegelijkertijd twee keer zo efficiënt kan worden uitgevoerd.
Een nieuwe filosofie
De filosofie achter Mamba-3 is een fundamentele verschuiving in de manier waarop we denken over de ‘slimheid’ van AI versus de snelheid van de hardware waarop het draait. Terwijl de vorige generatie, Mamba-2, ontworpen was om met recordsnelheden te trainen, is Mamba-3 een ‘inference-first’-architectuur – inferentie verwijst naar de manier waarop AI-modellen aan eindgebruikers worden gepresenteerd, via websites als ChatGPT of Google Gemini, of via application programming interfaces (API’s).
Het belangrijkste doel van Mamba 3 is om elke seconde dat de computerchip (GPU) actief is te maximaliseren, zodat het model zo hard mogelijk nadenkt zonder de gebruiker op een antwoord te laten wachten.
In de wereld van taalmodellen is elk punt van nauwkeurigheid moeilijk te verkrijgen. Op een schaal van 1,5 miljard parameters behaalde de meest geavanceerde “MIMO”-variant van Mamba-3 een gemiddelde nauwkeurigheid van 57,6% over de benchmarks heen, wat neerkomt op een sprong van 2,2 procentpunt ten opzichte van de industriestandaard Transformer.
Hoewel een sprong van twee punten misschien bescheiden klinkt, vertegenwoordigt deze feitelijk een relatieve verbetering van bijna 4% in taalmodelleringsmogelijkheden vergeleken met de Transformer-basislijn. Nog indrukwekkender is dat de Mamba-3, zoals hierboven vermeld, de voorspellende kwaliteit van zijn voorganger kan evenaren met slechts de helft van de interne “state size”, waardoor in feite hetzelfde niveau van intelligentie wordt geboden met veel minder geheugenvertraging.
Jarenlang leden efficiënte alternatieven voor Transformers onder een ‘logische kloof’: ze faalden vaak in eenvoudige redeneertaken, zoals het traceren van patronen of het oplossen van basisrekenkunde, omdat hun interne wiskunde te rigide was. Mamba-3 lost dit probleem op door toestanden met complexe waarden te introduceren.
Deze wiskundige verbetering werkt als een intern kompas, waardoor het model ‘rotatielogica’ kan weergeven. Met behulp van deze “roterende” aanpak kan Mamba-3 logische puzzels en taken voor het volgen van toestanden vrijwel perfect oplossen die zijn voorgangers alleen maar konden raden, waardoor de redeneerkracht van lineaire modellen uiteindelijk op één lijn komt met die van de modernste systemen.
Het laatste stukje van de puzzel is hoe de Mamba-3 samenwerkt met de fysieke hardware. De meeste AI-modellen zijn tegenwoordig ‘geheugengebonden’, wat betekent dat computerchips het grootste deel van hun tijd inactief zijn, wachtend tot de gegevens van het geheugen naar de processor worden verplaatst.
Mamba-3 introduceert een Multi-Input, Multi-Output (MIMO)-formulering die deze dynamiek fundamenteel verandert. Door bij elke stap tot vier keer zoveel wiskundige bewerkingen parallel uit te voeren, maakt Mamba-3 gebruik van voorheen ‘inactieve’ kracht. Hierdoor kan het model meer ‘denken’ voor elk woord dat het produceert, zonder dat de werkelijke tijd die de gebruiker besteedt aan het wachten op een antwoord toeneemt. Meer hierover hieronder.
Drie nieuwe technologische sprongen
De aantrekkingskracht van lineaire modellen is altijd hun constante geheugenbehoefte en lineaire computationele schaling geweest.
Maar zoals de schrijvers van Mamba 3 opmerken: “Er bestaat niet zoiets als een gratis lunch.” Door een toestandsgrootte te specificeren om efficiëntie te garanderen, wordt het model gedwongen alle historische context in één enkele representatie te comprimeren – het tegenovergestelde van de steeds groter wordende cache van KV Transformer. De Mamba-3 beschikt over drie speciale hendels om die stabiele toestanden meer werk te laten doen.
1. Exponentiële-trapeziumvormige discretisatie
Het State Space Model is in wezen een continu tijdsysteem dat “gediscretiseerd” moet worden om discrete digitale datasets te kunnen verwerken.
Eerdere iteraties waren gebaseerd op ‘Exponential-Euler’-discretisatie – een heuristiek die slechts een eerste-orde benadering van het systeem biedt.
Mamba-3 introduceert een algemene trapeziumregelbiedt nauwkeurige tweede-ordeschattingen. Dit is niet alleen een wiskundige verfijning; het induceert “impliciete convolutie” in de kernlus.
Door dit te combineren met expliciete B- en C-bias-termen, konden de onderzoekers de korte causale convoluties elimineren die al jaren een hoofdbestanddeel van terugkerende architecturen zijn.
2. Complexe waarde-SSM en de ‘touwtruc’
Een van de meest hardnekkige kritiekpunten op lineaire modellen is hun onvermogen om eenvoudige statustraceringstaken op te lossen, zoals het bepalen van de pariteit van een bitreeks.
Dit falen komt voort uit de beperking van de transitiematrix tot reële getallen, waardoor het model geen “rotatiedynamiek” kan weergeven. Mamba-3 pakt dit aan door de onderliggende SSM als complexe waarde te beschouwen.
Gebruikmakend van wat het team noemt “Touw trucs”, laten ze zien dat statusupdates met complexe waarden wiskundig equivalent zijn aan data-afhankelijke roterende inbedding (RoPE) toegepast op input- en outputprojecties.
Hierdoor kan de Mamba-3 synthetische redeneringstaken uitvoeren die onmogelijk zouden zijn voor de Mamba-2.
3. MIMO: rekenintensiteit verhogen
De belangrijkste sprong in de efficiëntie van inferenties komt van de overgang van Single-Input, Single-Output (SISO) naar Meerdere ingangen, meerdere uitgangen (MIMO) SSM.
In standaard-SSM is het bijwerken van de status een externe productbewerking die in hoge mate geheugengebonden is. Door over te schakelen naar op matrixvermenigvuldiging gebaseerde statusupdates verhoogt Mamba-3 de ‘rekenkundige intensiteit’ van het model: de verhouding tussen FLOP’s en geheugenverkeer.
Hierdoor kan het model meer berekeningen uitvoeren tijdens de geheugengebonden decoderingsfase. In wezen gebruikt Mamba-3 de “inactieve” computerkernen van de GPU om het modelvermogen “gratis” te vergroten, waarbij dezelfde decoderingssnelheid wordt gehandhaafd als zijn eenvoudigere voorganger.
Wat Mamba 3 betekent voor bedrijven en AI-makers
Voor het bedrijf vertegenwoordigt Mamba-3 een strategische verschuiving in de totale eigendomskosten (TCO) voor AI-toepassingen.
-
Kosten versus kostenprestaties: Met bijpassende prestatieparameters komt Mamba-3 (MIMO) overeen met de complexiteit van Mamba-2 met de helft van de staatsgrootte. Voor bedrijfsimplementaties verdubbelt dit effectief de inferentiedoorvoer voor dezelfde hardwarevoetafdruk.
-
Agentische workflow: Naarmate organisaties overstappen op parallelle workflows van agenten (zoals geautomatiseerde codering of realtime klantenservice-agenten), neemt de vraag naar generatie met lage latentie exponentieel toe. Mamba-3 is speciaal ontworpen om te voorkomen dat de GPU-hardware tijdens deze taken “koud” blijft staan.
-
Hybride voordeel: Onderzoekers voorspellen dat de toekomst van zakelijke AI aan de horizon ligt hybride model. Door Mamba-3 te integreren met zelfaandacht kunnen organisaties efficiënt SSM-“geheugen” combineren met nauwkeurige Transformers-“database”-opslag.
Beschikbaarheid, licenties en gebruik
Mamba-3 is niet alleen een theoretisch onderzoekspaper; Dit is een volledig gerealiseerde open source-release en is beschikbaar voor onmiddellijk gebruik met gepubliceerde modelcode Github.
Dit project is vrijgegeven onder de Apache-2.0-licentie. Dit is een permissieve, bedrijfsvriendelijke licentie die gratis commercieel gebruik, wijziging en distributie mogelijk maakt zonder dat de openbaarmaking van de bedrijfseigen broncode vereist is.
Deze release is geschikt voor ontwikkelaars die toepassingen met een lange context bouwen, real-time redeneringsagenten, of ontwikkelaars die de GPU-kosten willen verlagen in productieomgevingen met grote volumes.
Leider van de State Space Models (SSM)-revolutie.
De release werd op sociale media met enthousiasme ontvangen, vooral vanwege het “door studenten geleide” karakter van het project. Gu, wiens biografie X/Twitter is beschreef hem als “leider van de ssm-revolutie”, waarbij hij de studentenleiders, incl Akash Lahoti En Kevin Y. Li
.Gu-draad het benadrukken van de tevredenheid van het team met het ontwerp:
“We zijn best tevreden met het uiteindelijke modelontwerp! De drie belangrijkste veranderingen in de methodologie zijn geïnspireerd door (imo) een aantal elegante wiskunde en methoden.”
Nu agentworkflows de ‘toenemende’ vraag naar gevolgtrekkingen stimuleren, suggereert de komst van Mamba-3 dat de toekomst van AI misschien niet alleen gaat over het hebben van de grootste modellen, maar ook over het hebben van de meest efficiënte modellen.
Mamba-3 heeft SSM met succes opnieuw afgestemd op de realiteit van moderne hardware, wat bewijst dat zelfs in het tijdperk van Transformers de principes van de klassieke controletheorie nog steeds een belangrijke rol spelen.



