Home Nieuws Ai2 heeft MolmoWeb uitgebracht, een open-source visuele webagent met 30.000 menselijke taakpassen...

Ai2 heeft MolmoWeb uitgebracht, een open-source visuele webagent met 30.000 menselijke taakpassen en een complete trainingsstack

2
0
Ai2 heeft MolmoWeb uitgebracht, een open-source visuele webagent met 30.000 menselijke taakpassen en een complete trainingsstack

Ingenieurs die browseragenten bouwen, worden tegenwoordig geconfronteerd met de keuze tussen gesloten API’s die ze niet kunnen onderzoeken en open raamwerken zonder getrainde modellen eronder. Ai2 biedt nu een derde optie.

De in Seattle gevestigde non-profitorganisatie achter OLMo is open source taalmodellen en Mond de vision-taalfamilie heeft vandaag MolmoWeb uitgebracht, een open-source visuele webagent die beschikbaar is in 4 miljard en 8 miljard parametergroottes. Tot nu toe wordt geen enkele visuele webagent met open gewicht geleverd met de trainingsgegevens en pijplijnen die nodig zijn om deze te auditen of te reproduceren. MolmoWeb doet het. MolmoWebMix, de bijbehorende dataset, omvat 30.000 menselijke taaktrajecten op meer dan 1.100 websites, 590.000 individuele subtaakdemonstraties en 2,2 miljoen vraag-en-antwoord-screenshotparen – wat Ai2 beschrijft als de grootste publiekelijk vrijgegeven verzameling menselijke webtaakuitvoeringen ooit samengesteld.

“Kun je van het passief waarnemen van beelden, het beschrijven ervan en het ondertitelen ervan, naar het daadwerkelijk laten ondernemen van actie in een bepaalde omgeving?” Tanmay Gupta, senior onderzoeker bij Ai2, zei VentureBeat. “Dat is MolmoWeb.”

Hoe het werkt: Het ziet wat jij ziet

MolmoWeb werkt volledig vanuit browserscreenshots. Het ontleedt geen HTML en vertrouwt niet op de toegankelijkheidsboomweergave van een pagina. Bij elke stap ontvangt het taakinstructies, een huidige schermafbeelding, een tekstlogboek van eerdere acties en de URL en titel van de huidige pagina. Het genereert een gedachte in natuurlijke taal die verklaart waarom, en voert vervolgens de volgende browseractie uit: klikken op een schermcoördinaat, tekst typen, scrollen, naar een URL navigeren of tussen tabbladen schakelen.

Het model is browser-agnostisch. Er zijn alleen schermafbeeldingen voor nodig, wat betekent dat het op lokaal Chrome, Safari of een gehoste browserservice draait. Gehoste demo met Browserbase, een startup voor een cloudbrowserinfrastructuur.

De verzameling gegevens die ervoor zorgt dat het werkt

Modelgewichten zijn slechts een deel van wat Ai2 vrijgeeft. MolmoWebMix, de bijbehorende trainingsdataset, onderscheidt zich van alle andere open-weight-agenten die vandaag de dag beschikbaar zijn.

“Gegevens zien er in wezen uit als een reeks schermafbeeldingen en acties, gecombineerd met instructies over de bedoeling achter die reeks schermafbeeldingen”, zei Gupta.

MolmoWebMix combineert drie componenten.

Menselijke demonstratie. Menselijke annotators voltooien browsetaken met behulp van een speciale Chrome-extensie die acties en schermafbeeldingen op meer dan 1.100 websites registreert. Het resultaat zijn 30.000 taaktrajecten met meer dan 590.000 individuele subtaakdemonstraties.

Synthetisch traject. Om verder te gaan dan wat menselijke annotatie alleen kan bieden, genereert Ai2 aanvullende trajecten met behulp van op tekst gebaseerde toegankelijkheidsboomagenten: afzonderlijke agenten worden uitgevoerd met filters voor taaksucces, pijplijnen met meerdere agenten die taken in subdoelen opsplitsen, en deterministische navigatiepaden over honderden websites. Het belangrijkste is dat er geen eigen visiebureau wordt gebruikt. De synthetische gegevens zijn afkomstig van systemen met alleen tekst, niet van OpenAI-operators of API’s die antropische computers gebruiken.

GUI-perceptiegegevens. De derde component traint het model om pagina-inhoud rechtstreeks vanuit afbeeldingen te lezen en te overwegen. Het bevat meer dan 2,2 miljoen screenshot-vraag-antwoord-paren afkomstig van bijna 400 websites, die elementaire grondslagen en op screenshot gebaseerde redeneringstaken omvatten.

“Als je een taak kunt uitvoeren en het traject van die taak kunt vastleggen, zou je een webagent op dat traject moeten kunnen trainen om exact dezelfde taak uit te voeren”, aldus Gupta.

Hoe MolmoWeb de concurrentie aangaat

Volgens Gupta zijn er twee categorieën technologie op de markt voor browseragenten.

De eerste is een systeem dat alleen uit API’s bestaat, capabel maar gesloten, zonder inzicht in training of architectuur. OpenAI-operators, Anthropic-computers die API’s gebruiken en Google’s gebruik van Gemini-computers vallen in deze groep. De tweede is het open-weight-model, een veel kleinere categorie. Het gebruik van browsers, het meest geaccepteerde open alternatief, is meer een raamwerk en geen getraind model. Dit vereist dat ontwikkelaars hun eigen LLM leveren en daarbovenop een agentlaag bouwen.

MolmoWeb valt in de tweede categorie als een volledig getraind zichtmodel met open gewicht. Ai2 meldt dat het koploper is in vier live website-benchmarks: WebVoyager, Online-Mind2Web, DeepShop en WebTailBench. Volgens Ai2 presteert het ook beter dan oudere API-gebaseerde agenten die zijn gebouwd op GPT-4o met toegankelijkheidsbomen plus screenshot-invoer.

Ai2 documenteert enkele van de huidige beperkingen in de release. Het model maakte soms fouten bij het lezen van tekst uit schermafbeeldingen, interacties via slepen en neerzetten bleven onbetrouwbaar en de prestaties gingen achteruit bij dubbelzinnige of sterk beperkte instructies. Het model is ook niet getraind voor taken waarvoor aanmeldingen of financiële transacties vereist zijn.

Het team van het bedrijf dat browseragents evalueert, kiest niet zomaar een model. Ze beslissen of ze kunnen controleren wat ze uitvoeren, de interne workflows kunnen verbeteren en API-afhankelijkheden per oproep kunnen vermijden.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in