De afgelopen twee jaar was ‘voltooiing’ de basiseenheid van generatieve AI-ontwikkeling.
U sms’t het model, het model sms’t terug en de transactie eindigt. Als je het gesprek wilt voortzetten, moet je de hele geschiedenis terugsturen naar het model. Deze ‘staatloze’ architectuur, die de erfenis van Google belichaamt generateContent eindpunt – perfect voor eenvoudige chatbots. Maar nu ontwikkelaars overgaan op autonome agenten die tools gebruiken, een complexe toestand in stand houden en op de lange termijn ‘denken’, is dat staatloze model een hindernis op zichzelf geworden.
Vorige week heeft Google DeepMind eindelijk deze infrastructuurkloof aangepakt publieke bèta-lancering van de Interaction API (/interactions).
Wanneer OpenAI debuteerde deze verandering in maart 2025 met zijn Responses APIDe inzending van Google is een teken van zijn eigen inspanningen om geavanceerde technologie te bevorderen. De Interactions API is niet alleen een hulpmiddel voor statusbeheer; het is een uniforme interface die is ontworpen om LLM minder als een tekstgenerator en meer als een extern besturingssysteem te behandelen.
‘Remote Compute’-model
De kerninnovatie van de Interactions API is de introductie van de status aan de serverzijde als standaardgedrag.
Voorheen moesten ontwikkelaars die complexe agents bouwden handmatig de steeds groter wordende JSON-lijsten van elke beurt van “gebruiker” en “model” beheren, waarbij bij elk verzoek megabytes aan geschiedenis heen en weer werden gestuurd. Met de nieuwe API kunnen ontwikkelaars eenvoudigweg een previous_interaction_id. De infrastructuur van Google slaat de gespreksgeschiedenis, de tooluitvoer en het uiteindelijke ‘denkproces’ op.
“Modellen worden systemen en kunnen na verloop van tijd zelfs zelf agenten worden”, schreven Ali Çevik en Philipp Schmid van DeepMind in een officiële verklaring. blogpost op een nieuw paradigma. “Ik probeer dit vermogen naar binnen te forceren generateContent zal resulteren in een API die te complex en kwetsbaar is.”
Deze verschuiving maakt Achtergronduitvoering mogelijk, een belangrijk kenmerk voor het agententijdperk. Complexe workflows, zoals een uur surfen op internet om een rapport te maken, veroorzaken vaak HTTP-time-outs in standaard API’s. Met de Interactions API kunnen ontwikkelaars agenten activeren background=true, verbreek de verbinding en controleer de resultaten later. Dit verandert de API effectief in een werkwachtrij voor intelligentie.
Echt “diepgaand onderzoek” en MCP-ondersteuning
Google gebruikte deze nieuwe infrastructuur om zijn eerste native agent te leveren: Gemini Deep Research.
Bereikbaar via hetzelfde /interactions eindpunt is de agent in staat ‘onderzoekstaken op lange termijn’ uit te voeren. In tegenstelling tot standaardmodellen die het volgende token voorspellen op basis van uw verzoek, voeren Deep Research-agents zoek-, lees- en syntheserondes uit.
Het belangrijkste is dat Google ook het open ecosysteem omarmt door native ondersteuning voor Model Context Protocol (MCP) toe te voegen. Hierdoor kunnen Gemini-modellen rechtstreeks externe tools aanroepen die op externe servers worden gehost, zoals weerdiensten of databases, zonder dat ontwikkelaars aangepaste lijmcode hoeven te schrijven om die toolaanroepen te parseren.
Landschap: Google sluit zich aan bij OpenAI in het ‘Stateful’-tijdperk
Je zou kunnen zeggen dat Google een inhaalslag maakt, maar met een andere filosofische wending. OpenAI verliet negen maanden geleden staatloosheid met Responses API wordt gelanceerd in maart 2025.
Hoewel deze beide grote bedrijven het probleem van context-bloat oplossen, verschillen hun oplossingen op het gebied van transparantie:
OpenAI (compressiebenadering): OpenAI’s Response API introduceert Compaction, een functie die de gespreksgeschiedenis verkleint door de uitvoer van tools en redeneerketens te vervangen door ondoorzichtige ‘gecodeerde compressie-items’. Dit geeft prioriteit aan token-efficiëntie, maar creëert een ‘black box’ waarin de grondgedachte voor eerdere modellen verborgen blijft voor ontwikkelaars.
Google (gehoste aanpak): De Interaction API van Google houdt de volledige geschiedenis beschikbaar en samen te stellen. Met het datamodel kunnen ontwikkelaars ‘ingebedde berichten debuggen, manipuleren, doorsturen en erover redeneren’. Dit geeft voorrang aan inspectie boven compressie.
Ondersteunde modellen en beschikbaarheid
De Interaction API bevindt zich momenteel in de openbare bèta (documentatie hier) en binnenkort beschikbaar via Google AI Studio. Het ondersteunt het volledige spectrum van de volgende generatie modellen van Google, waardoor ontwikkelaars de juiste modelgrootte kunnen afstemmen op hun specifieke agenttaken:
-
Tweeling 3.0: Gemini 3 Pro-voorbeeld.
-
Tweeling 2.5: Flash, Flash-lite en Pro.
-
Tussenpersoon: Uitgebreid onderzoekvoorbeeld (
deep-research-pro-preview-12-2025).
Commercieel gezien is de API geïntegreerd in de bestaande prijsstructuur van Google. U betaalt een standaardtarief voor invoer- en uitvoertokens op basis van het model dat u kiest. De waardepropositie verandert echter met nieuw beleid voor het bewaren van gegevens. Omdat deze API stateful is, moet Google een geschiedenis van uw interacties opslaan om functies zoals impliciete caching en het ophalen van context mogelijk te maken.
De toegang tot deze opslag wordt bepaald door uw niveau. Ontwikkelaars op de Free Tier zijn beperkt tot een bewaarbeleid van één dag, ideaal voor tijdelijke tests, maar niet genoeg voor agentgeheugen op de lange termijn.
Ontwikkelaars op de betaalde laag ontgrendelen een retentiebeleid van 55 dagen. Deze verlengde bewaring geldt niet alleen voor audits; dit verlaagt effectief de totale eigendomskosten door het maximaliseren van cachehits. Door de geschiedenis bijna twee maanden ‘hot’ te houden op de server, vermijdt u dat u moet betalen voor het opnieuw verwerken van enorme contextvensters voor terugkerende gebruikers, waardoor de betaalde laag veel efficiënter wordt voor agenten op productieniveau.
Opmerking: aangezien dit een bètaversie is, heeft Google aangegeven dat er wijzigingen in de functies en het schema kunnen optreden die tot verstoring kunnen leiden.
‘Je communiceert met het systeem’
Sam Witteveen, Google Developer Expert in Machine Learning en CEO van Red Dragon AI, beschouwt deze release als een belangrijke evolutie van de ontwikkelaarsstack.
“Als we teruggaan in de geschiedenis… was het hele idee eenvoudigweg tekst-in, tekst-uit”, zei Witteveen in een verklaring. technische details van de release op YouTube. “Maar nu… heb je interactie met een systeem. Een systeem dat veel modellen kan gebruiken, veel repetitieve oproepen kan doen, tools kan gebruiken en code kan uitvoeren op de backend.”
Witteveen benadrukt een direct economisch voordeel van deze architectuur: impliciete caching. Omdat de gespreksgeschiedenis zich op de servers van Google bevindt, hoeven ontwikkelaars geen kosten te betalen voor het herhaaldelijk opnieuw uploaden van dezelfde context. “Je hoeft niet veel te betalen voor de tokens die je belt”, legt hij uit.
Maar de release verliep niet zonder wrijving. Witteveen had kritiek op de huidige implementatie van citatiesystemen van bureaus door Deep Research. Hoewel de agent de bron levert, wordt de geretourneerde URL vaak verpakt in een interne omleidingslink van Google/Vertex AI, in plaats van een onbewerkte, bruikbare URL.
“Mijn grootste klacht is… deze URL’s, als ik ze opsla en ze in een andere sessie probeer te gebruiken, zullen ze niet werken”, waarschuwde Witteveen. “Als ik een rapport wil maken voor iemand die een offerte heeft, wil ik dat hij of zij op de URL van het pdf-bestand kan klikken… Iets als medium.com als offerte hebben (zonder directe link) is niet goed.”
Wat het betekent voor uw team
Voor Lead AI Engineers die zich richten op het snel implementeren en verbeteren van modellen, biedt deze release een eenvoudige architectonische oplossing voor het hardnekkige ‘time-out’-probleem: Achtergronduitvoering.
In plaats van complexe asynchrone handlers te maken of afzonderlijke taakwachtrijen te beheren voor langlopende redeneringstaken, kunt u deze complexiteit nu rechtstreeks naar Google verplaatsen. Dit gemak zorgt echter voor strategische afwegingen.
Hoewel de nieuwe Deep Research-agent een snelle inzet van geavanceerde onderzoeksmogelijkheden mogelijk maakt, functioneert deze als een ‘black box’ vergeleken met op maat gemaakte LangChain- of LangGraph-stromen. Ingenieurs moeten een prototype maken van ‘slow thinking’-functies met behulp van background=true parameters om te evalueren of de snelheid van implementatie opweegt tegen het verlies van algehele controle over de onderzoekscyclus.
Senior ingenieurs die de AI-orkestratie en -budgetten beheren, zullen zich ervan bewust zijn dat de transitie naar een server-side status voltooid is previous_interaction_id ontgrendelt impliciete caching, een grote winst voor kosten- en latentiestatistieken.
Door te verwijzen naar de geschiedenis die is opgeslagen op de servers van Google, vermijdt u automatisch de tokenkosten die gepaard gaan met het opnieuw uploaden van grote contextvensters, waardoor budgetbeperkingen direct worden aangepakt terwijl de hoge prestaties behouden blijven.
De uitdaging ligt hier in de supply chain; De integratie van Remote MCP (Model Context Protocol) betekent dat uw agenten rechtstreeks verbinding maken met externe tools, waardoor u rigoureus moet valideren dat deze externe services veilig en geverifieerd zijn. Het is tijd om uw huidige tokenuitgaven voor het opnieuw verzenden van de gespreksgeschiedenis te controleren. Als het aantal hoog is, kan het geven van prioriteit aan een migratie naar de Stateful Interactions API aanzienlijke besparingen opleveren.
Voor Senior Data Engineers biedt de Interactions API een krachtiger datamodel dan ruwe tekstlogboeken. Dankzij het gestructureerde schema kunnen fouten in de complexe geschiedenis worden opgespoord en kan er rekening mee worden gehouden, waardoor de algehele gegevensintegriteit in uw pijplijn wordt verbeterd. Maar u moet nog steeds op uw hoede zijn voor de datakwaliteit, vooral als het gaat om de problemen die expert Sam Witteveen met betrekking tot citaties naar voren brengt.
De Deep Research-agent retourneert momenteel ‘verpakte’ URL’s die mogelijk verouderd of verbroken zijn, in plaats van onbewerkte bronlinks. Als uw pijplijn afhankelijk is van het schrapen of archiveren van deze bronnen, moet u mogelijk een opschoonstap maken om bruikbare URL’s te extraheren. U moet ook gestructureerde uitvoermogelijkheden testen (response_format) om te zien of ze de fragiele regex-parsering in uw huidige ETL-pijplijn kunnen vervangen.
Tenslotte biedt de IT-beveiligingsdirecteur het verplaatsen van de status naar de gecentraliseerde servers van Google een paradox. Dit kan de veiligheid verbeteren door API-sleutels en gespreksgeschiedenis uit de buurt van clientapparaten te houden, maar het introduceert nieuwe risico’s op het gebied van gegevenslocatie. Een belangrijke controle hier is het gegevensbewaarbeleid van Google: terwijl de Free Tier gegevens slechts één dag bewaart, houdt de Paid Tier de interactiegeschiedenis 55 dagen bij.
Dit verschilt van OpenAI’s “Zero Data Retention” (ZDR) bedrijfsoptie. U moet ervoor zorgen dat het bewaren van bijna twee maanden gevoelige gespreksgeschiedenis in overeenstemming is met uw interne governance. Als dit in strijd is met uw beleid, moet u oproepen configureren met store=falsehoewel dit de stateful functies (en kostenvoordelen) die deze nieuwe API’s waardevol maken, zou uitschakelen.


