Home Nieuws Microsoft 365 Copilot en het einde van het tijdperk van één model...

Microsoft 365 Copilot en het einde van het tijdperk van één model in zakelijke AI – GeekWire

3
0
Microsoft 365 Copilot en het einde van het tijdperk van één model in zakelijke AI – GeekWire

Steve Gustavson, vice-president van Microsoft voor ontwerp en onderzoek. (Microsoft-foto’s)

(Noot van de redactie: Transformatie-agent is een onafhankelijke GeekWire-serie, onderschreven door Accenture, die de acceptatie en impact van AI en agenten onderzoekt. Bekijk dekking onze gerelateerde evenementen.)

Het gebruik van AI-modellen gaat nog steeds gepaard met een onuitgesproken asterisk: Verifieer voordat je handelt. Controleer de feiten. Google het. Vraag het aan collega’s. De last van de nauwkeurigheid ligt uiteindelijk altijd bij de mens. Maar Microsoft beweert dat het een manier heeft om de lasten te verleggen door twee AI’s elkaar te laten controleren.

In een tijdperk waarin taken van personeel steeds meer door AI-agenten worden afgehandeld, bereiken deze multi-modelstrategieën nu iets waarvan menselijke werknemers aannemen dat het hun eigen taak is: beslissingen nemen. Human-in-the-loop is lange tijd een onbespreekbaar onderwerp geweest in AI-workflows. De aanpak van Microsoft elimineert dat niet, maar roept wel de vraag op hoeveel rol we willen opgeven.

‘Twee hoofden zijn beter dan één’

Microsoft staat niet alleen in deze gok. Amazon Web Services, Google en anderen bouwen platforms die bedrijven via één interface toegang geven tot meerdere modellen.

AWS Bedrock biedt toegang tot onderliggende modellen van meerdere providers, terwijl Googles Gemini Enterprise één enkele voordeur biedt voor AI op de werkplek. Het verschil met Microsoft is dat ze de beoordeling van meerdere modellen rechtstreeks in de productiviteitstools integreren die door miljoenen werknemers worden gebruikt.

De eerste uitvoering van dit plan hebben we vorige week gezien Nieuwe update voor Microsoft 365 Copilot. De onderzoeksagent kan nu de GPT van OpenAI gebruiken om reacties te maken en deze vervolgens door Claude van Anthropic laten beoordelen op nauwkeurigheid, volledigheid en citatiekwaliteit voordat ze worden afgerond.

‘We willen bewust diversiteit van meningen’ Steve GustavsonMicrosoft’s corporate vice-president voor ontwerp en onderzoek, vertelde GeekWire in een interview. “Twee hoofden zijn beter dan één als ze samenkomen.”

Dat is geen triviale zorg. Onderzoek heeft dat aangetoond AI-gebruikers hebben de neiging kritisch denken uit te besteden naar modellen die zij als gezaghebbend beschouwen. Als we een beoordeling voor één model hebben ingediend, kan een tweede beoordeling van het eerste model dan een teken van mislukking zijn?

Dit zijn de vragen waarmee Microsoft worstelt bij het ontwerpen van Critique en Board, twee nieuwe functies in zijn Research-agent.

“Ons onderzoek laat consequent zien dat werknemers een dieper vertrouwen in AI en kwaliteitsinhoud blijven wensen”, aldus Gustavson. “Mensen stellen óf te veel vertrouwen in AI – ze accepteren beweringen die ze niet zouden moeten doen – óf ze vertrouwen er niet genoeg op en profiteren niet van de volledige voordelen. Beide zijn ontwerp- en engineeringmogelijkheden.”

Neem bijvoorbeeld de Critique-functie van Microsoft. Gustavson zegt dat Microsoft het met opzet heeft ontworpen: GPT leidde deze generatie en Claude fungeerde als recensent.

“Deze scheiding is belangrijk omdat evaluatie een cognitieve methode is die van generatie op generatie verschilt”, zei hij. “Als één model beide doet, krijg je twee keer dezelfde blinde vlek. Als het de taak van het tweede model is om het eerste model te valideren, krijg je structureel iets anders.”

Dit creëert “een krachtige feedbackloop die resultaten van hogere kwaliteit oplevert op het gebied van feitelijke nauwkeurigheid, analytische breedte en presentatie.” Gaurav AnandMicrosoft corporate vice-president voor engineering, schrijf in een technische blogpost over de M365 Critic-functie.

Multi-model is niet alleen een proof of concept; het is al live en al de standaardervaring binnen Researcher. Maar Gustavson wijst er al snel op dat het de meeste werknemers niet uitmaakt welk model er wordt toegepast. De modellen zouden volgens hem onzichtbaar moeten zijn.

“De gemiddelde gebruiker wil een fenomenale output. Ze willen betrouwbaar zijn”, zei hij. “Moeten ze weten dat het een 5,2 is versus wat dan ook? Ik denk het niet.”

Gustavson ontkende dat dit een geval was van “de blinden die de blinden leiden”, en benadrukte dat het passen van het model een manier was om hallucinaties te vermijden. Met Researcher “heeft Claude bewezen een buitengewone synthesizer te zijn en kan hij onderzoeken wat GPT-modellen kunnen doen.”

Gustavson zei echter dat Microsoft doorgaat met het evalueren van de prestaties van enkele modellen versus dubbele modellen, en dat er “een LLM-rechter tussen de twee” wordt geplaatst om de verschillen te zien.

Gustavson zei dat Microsoft van plan is te stoppen met het promoten van specifieke modelnamen en de focus te verleggen naar wat een werknemer wil bereiken. Hij zegt dat werknemers bijvoorbeeld kunnen opgeven dat ze in de financiële wereld werken, en Copilot zal het werk richten op het model dat het beste overweg kan met Excel, datasynthese en analyse – er is geen modelselectie vereist.

Enterprise AI-slinger

Voor Microsoft is multi-modellering minder een feature vergeleken met de onvermijdelijke richting van enterprise AI. Gustavson noemde het een natuurlijke ontwikkeling en merkte op dat Copilot met één model begon.

Sindsdien, zei hij, is de industrie verschoven tussen wat modellen kunnen zijn, wat productervaringen zouden moeten zijn en waar de concurrentie ligt.

“Ik denk dat het gewoon een natuurlijke evolutie is”, zei hij. “Twee modellen zijn beter dan één.”

Omdat modellen elke paar maanden een sprong voorwaarts maken, gokt Microsoft niet op één model, maar probeert ze eerder iets te bouwen dat langer meegaat.

Nu organisaties van het experimenteren met AI overgaan op het vertrouwen op AI om cruciale beslissingen te nemen, begint de aanpak met één model zijn grenzen te tonen. De vraag is misschien niet of bedrijven meerdere modellen moeten adopteren, maar eerder of ze bereid zijn een systeem te accepteren waarin controles geautomatiseerd zijn, modellen onzichtbaar zijn en AI AI beoordeelt voordat mensen de resultaten zien.

Naast de initiële integratie in de Research-agent zei Gustavson dat Microsoft van plan is de multi-modelbenadering uit te breiden naar andere AI-tools. Hij hoopt dat deze aanpak standaard wordt in de hele sector. Volgens hem is het inbouwen van beoordelingen met meerdere modellen in de workflows van agenten zowel goed bestuur als een goed ontwerp.

Voor degenen die ervaring hebben met het opbouwen van bureaus is het advies van Gustavson eenvoudig: behandel bureaus als elk proces met betekenisvolle gevolgen. De hamvraag: “Wie controleert het werk?”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in