Microsoft heeft geïntroduceerd Fara-7B, een nieuw parametermodel van 7 miljard is ontworpen om te fungeren als een Computer Usage Agent (CUA) die complexe taken rechtstreeks op het apparaat van de gebruiker kan uitvoeren. Fara-7B levert nieuwe state-of-the-art resultaten voor zijn omvang en biedt een manier om AI-agents te bouwen die niet afhankelijk zijn van grote, cloud-afhankelijke modellen en kunnen draaien op compacte systemen met lagere latentie en verbeterde privacy.
Hoewel dit model een experimentele versie is, pakt de architectuur een belangrijke barrière aan voor de adoptie door ondernemingen: gegevensbeveiliging. Omdat Fara-7B klein genoeg is om lokaal te draaien, kunnen gebruikers gevoelige workflows automatiseren, zoals het beheren van interne accounts of het verwerken van gevoelige bedrijfsgegevens, zonder dat ze die informatie op het apparaat hoeven achter te laten.
Hoe Fara-7B het web ziet
Fara-7B is ontworpen om door gebruikersinterfaces te navigeren met dezelfde hulpmiddelen als mensen: muis en toetsenbord. Deze modellen werken door webpagina’s visueel te observeren via schermafbeeldingen en specifieke coördinaten te voorspellen voor acties zoals klikken, typen en scrollen.
Het belangrijkste is dat Fara-7B niet afhankelijk is van ‘toegankelijkheidsbomen’, de basiscodestructuren die browsers gebruiken om webpagina’s aan schermlezers te beschrijven. In plaats daarvan vertrouwt het uitsluitend op visuele gegevens op pixelniveau. Met deze aanpak kunnen agenten communiceren met websites, zelfs als de onderliggende code onduidelijk of complex is.
Volgens Yash Lara, Senior PM Lead bij Microsoft Research, creëert het verwerken van alle visuele invoer op een apparaat echte ‘pixelsoevereiniteit’, omdat de schermafbeeldingen en de redenen die nodig zijn voor automatisering op het apparaat van de gebruiker blijven staan. “Deze aanpak helpt organisaties te voldoen aan strenge eisen in gereguleerde sectoren, waaronder HIPAA en GLBA”, vertelde hij in schriftelijke commentaren aan VentureBeat.
Bij benchmarkingtests leverde deze visuele benadering sterke resultaten op. Op WebVoyagerDe standaardbenchmark voor webagenten, Fara-7B, behaalde een taaksuccespercentage van 73,5%. Dit presteert beter dan grotere, meer resource-intensieve systemen, incl GPT-4otoen hem werd gevraagd om op te treden als computergebruiksagent (65,1%) en het originele model UI-TARS-1.5-7B (66,4%).
Efficiëntie is een andere belangrijke onderscheidende factor. In vergelijkingstests voltooide de Fara-7B de taak in gemiddeld ongeveer 16 stappen, vergeleken met ongeveer 41 stappen voor het UI-TARS-1.5-7B-model.
Risico’s aanpakken
De verschuiving naar autonome agenten is echter niet zonder risico’s. Microsoft merkt op dat Fara-7B dezelfde beperkingen heeft als andere AI-modellen, waaronder de kans op hallucinaties, fouten bij het volgen van complexe instructies en verminderde nauwkeurigheid bij complexe taken.
Om dit risico te beperken, is het model getraind om ‘tipping points’ te herkennen. Een kritiek punt wordt gedefinieerd als elke situatie waarbij persoonlijke gegevens of toestemming van de gebruiker vereist zijn voordat een onomkeerbare actie plaatsvindt, zoals het verzenden van een e-mail of het voltooien van een financiële transactie. Zodra het dat punt bereikt, is de Fara-7B ontworpen om te pauzeren en expliciet om toestemming van de gebruiker te vragen voordat hij verdergaat.
Het beheren van deze interacties zonder gebruikers te frustreren is een grote ontwerpuitdaging. “Het balanceren van sterke bescherming zoals Critical Point met een soepel gebruikerstraject is van cruciaal belang”, zegt Lara. “Het hebben van een gebruikersinterface, zoals de Magentic-UI van Microsoft Research, is van cruciaal belang om gebruikers de mogelijkheid te geven om in te grijpen wanneer dat nodig is, en om tegelijkertijd toestemmingsvermoeidheid te voorkomen.” Magentik-UI is een onderzoeksprototype dat speciaal is ontworpen om deze interactie tussen mens en agent te vergemakkelijken. Fara-7B is ontworpen om op Magnetic-UI te draaien.
Complexiteit in één model destilleren
De ontwikkeling van Fara-7B benadrukt een groeiende trend distillatie van kenniswaarbij complexe systeemmogelijkheden worden gecomprimeerd tot kleinere, efficiëntere modellen.
Voor het maken van een CUA is doorgaans een grote hoeveelheid trainingsgegevens nodig die laten zien hoe u op internet kunt navigeren. Het verzamelen van deze gegevens via menselijke annotatie is erg duur. Om dit aan te pakken, gebruikt Microsoft een ingebouwde synthetische datapijplijn Magentik-Eenraamwerk met meerdere agenten. In deze setting maakt de “Orchestrator”-agent plannen en geeft hij de “WebSurfer”-agent opdracht om op internet te surfen, wat resulteert in 145.000 succesvolle taakdoorgangen.
De onderzoekers hebben deze complexe interactiegegevens vervolgens ‘gedistilleerd’ in Fara-7B, dat is gebouwd op Qwen2.5-VL-7B, een basismodel dat is gekozen vanwege het lange contextvenster (tot 128.000 tokens) en het sterke vermogen om tekstinstructies te koppelen aan visuele elementen op het scherm. Hoewel het genereren van gegevens een zwaar multi-agentsysteem vereist, is Fara-7B zelf één model, wat aantoont dat kleine modellen effectief geavanceerd gedrag kunnen leren zonder dat er tijdens runtime complexe steigers nodig zijn.
Het trainingsproces is afhankelijk van afstemming onder toezicht, waarbij het model leert door succesvolle voorbeelden te repliceren die door de synthetische pijplijn zijn gegenereerd.
Vooruitkijken
Hoewel de huidige versie is getraind op een statische dataset, zullen toekomstige iteraties zich richten op het slimmer maken van het model, en niet noodzakelijkerwijs groter. “In de toekomst zullen we proberen onze modelgroottes klein te houden,” zei Lara. “Ons lopende onderzoek richt zich op het slimmer en veiliger maken van agentmodellen, en niet alleen maar groter.” Dit omvat het verkennen van technieken zoals versterkend leren (RL) in een live sandbox-omgeving, waardoor het model in realtime met vallen en opstaan kan leren.
Microsoft heeft dit model beschikbaar gesteld in Hugging Face en Microsoft Foundry onder de MIT-licentie. Lara waarschuwt echter dat, hoewel de licentie commercieel gebruik toestaat, het model nog niet productieklaar is. “Je kunt vrijelijk experimenteren en prototypen met Fara-7B onder de MIT-licentie,” zei hij, “maar het is het meest geschikt voor tests en proof-of-concept in plaats van missiekritieke toepassingen.”


