ZoomvideocommunicatieHet bedrijf dat vooral bekend staat om het verbonden houden van thuiswerkers tijdens de pandemie, maakte vorige week bekend dat het de hoogste score ooit had behaald op een van de meest veeleisende kunstmatige-intelligentietests – een bewering die tot veel verrassing, scepsis en oprechte nieuwsgierigheid in de technologie-industrie leidde.
Het in San Jose gevestigde bedrijf zegt dat zijn AI-systeem werkt 48,1 procent in De laatste test van de mensheidbenchmarks ontworpen door experts over de hele wereld om zelfs de meest geavanceerde AI-modellen te verslaan. Deze resultaten presteren beter dan Google Tweeling 3 Prodie het vorige record op 45,8 procent had.
“Zoom heeft state-of-the-art resultaten behaald op de uitdagende volledige benchmark Geesteswetenschappen Eindexamen, met een score van 48,1%, wat een substantiële verbetering van 2,3% betekent ten opzichte van de eerdere SOTA-resultaten”, schreef Xuedong Huang, Chief Technology Officer van Zoom, in een verklaring. blogpostQ.
De aankondiging roept een provocerende vraag op die AI-waarnemers al dagenlang bezighoudt: hoe heeft een videoconferentiebedrijf – zonder publieke geschiedenis van het trainen van grote taalmodellen – plotseling het verleden overwonnen? Googlen, Open AIEn Antropisch op benchmarks die zijn gemaakt om de grenzen van machine-intelligentie te meten?
De antwoorden onthullen Zoom’s eigen AI-richting en technische ambities. En afhankelijk van wie je het vraagt, is het ofwel een slimme demonstratie van praktische techniek, ofwel een loze bewering die het werk van iemand anders eer aandoet.
Hoe Zoom een AI-verkeersleider creëerde in plaats van zijn eigen modellen te trainen
Zoom traint geen eigen grote taalmodellen. In plaats daarvan ontwikkelde het bedrijf wat het noemt “gecombineerde AI-aanpak” – een systeem dat zoekopdrachten doorstuurt naar verschillende bestaande modellen van OpenAI, Google en Anthropic, en vervolgens eigen software gebruikt om de uitvoer te selecteren, combineren en verfijnen.
De kern van het systeem is wat Zoom noemt “Z-doelpuntenmakereen mechanisme dat de reacties van verschillende modellen evalueert en voor elke specifieke taak de beste selecteert. Het bedrijf combineert dit met wat het beschrijft als een ‘gemengde verkennings-verificatiestrategie’, een workflow van agenten die verkennend redeneren combineert met verificatie over verschillende AI-systemen.
“Onze gecombineerde aanpak combineert het kleine taalmodel van Zoom met de modernste open source- en closed source-modellen”, schreef Huang. Dit raamwerk “organiseert diverse modellen voor het genereren, uitdagen en verfijnen van redeneringen door middel van dialectische samenwerking.”
Simpel gezegd: Zoom bouwt geavanceerde verkeersregelaars voor AI, niet voor AI zelf.
Dit onderscheid is vooral belangrijk in een sector waar opscheppen – en miljarden dollars aan waarde – vaak afhangen van wie het meest capabele model kan claimen. Grote AI-laboratoria besteden honderden miljoenen dollars aan het trainen van toonaangevende systemen op enorme computerclusters. In plaats daarvan lijken de prestaties van Zoom te berusten op intelligente integratie van bestaande systemen.
Waarom AI-onderzoekers verdeeld zijn over wat telt als echte innovatie
De reactie van de AI-gemeenschap was snel en verdeeld.
Max Huleen AI-ingenieur die beweert een geavanceerd taalmodel te hebben getraind, uitte scherpe kritiek op sociale media. “Zoom koppelt API-aanroepen aan Gemini, GPT, Claude et al. aan elkaar en verbetert de benchmarks enigszins die geen enkele waarde bieden voor hun klanten”, schreef hij. “Ze claimden toen SOTA.”
Rumpf wijst de technische benadering zelf niet af. Het gebruik van meerdere modellen voor verschillende taken, zei hij, “is eigenlijk best slim en de meeste applicaties zouden dit moeten doen.” Hij wijst op Sierra, een AI-klantenservicebedrijf, als voorbeeld van een multi-modellenstrategie die effectief wordt uitgevoerd.
Zijn bezwaar was specifieker: “Ze hebben het model niet getraind, maar hebben dit feit in tweets verdoezeld. De oneerlijkheid van het opeisen van het werk van iemand anders is diep verankerd in de samenleving.”
Andere waarnemers zien deze prestatie echter anders. Hongcheng Zhueen ontwikkelaar gaf een meer afgemeten beoordeling: “Om beter te presteren dan AI-evaluaties, heb je hoogstwaarschijnlijk modelfederatie nodig, net als Zoom. De analogie is dat elke Kaggle-concurrent weet dat je modellen moet combineren om de wedstrijd te winnen.”
Vergelijking met Kaggle – een competitief data science-platform dat meerdere modellen combineerde als standaardpraktijk onder winnende teams – herformuleerde de aanpak van Zoom als een best practice in de sector, en niet als een goochelarij. Academisch onderzoek heeft al lang bewezen dat ensemblemethoden routinematig beter presteren dan individuele modellen.
Het debat bracht echter een tekortkoming aan het licht in de manier waarop de sector vooruitgang interpreteert. Ryan Preamoprichter van Exoria AI bagatelliseert: “Zoom creëert gewoon een veiligheidstouw rond andere LLM’s en rapporteert daarover. Het is alleen maar lawaai.” Een andere commentator greep het onverwachte nieuws aan: “Dat de videoconferentie-app ZOOM een SOTA-model heeft ontwikkeld dat 48% HLE behaalt, staat niet in mijn bingokaarten.”
Misschien wel de scherpste kritiek betreft de prioriteiten. Rumpf voerde aan dat Zoom zijn middelen had kunnen inzetten om de echte problemen waarmee zijn klanten werden geconfronteerd, aan te pakken. “Het ophalen van de gesprekstranscripties werd niet ‘voltooid’ door de SOTA LLM”, schreef hij. “Ik denk dat Zoom-gebruikers hier meer om zullen geven dan om HLE.”
Deze Microsoft-veteraan zet zijn reputatie in op een ander soort AI
Als de benchmarkresultaten van Zoom niet uit het niets lijken te komen, doet de Chief Technology Officer niet hetzelfde.
Xuedong Huang sluit je aan bij Zoom van Microsoftwaar hij tientallen jaren heeft besteed aan het opbouwen van de AI-mogelijkheden van het bedrijf. Hij richtte in 1993 de spraaktechnologiegroep van Microsoft op en leidde een team dat bereikte wat het bedrijf beschrijft als menselijke gelijkheid op het gebied van spraakherkenning, machinevertaling, begrip van natuurlijke taal en computervisie.
Huang heeft een Ph.D. in elektrotechniek aan de Universiteit van Edinburgh. Hij is een gekozen lid van Nationale Academie voor Ingenieurswetenschappen en het Amerikaanse Academie van Kunsten en Wetenschappenen collega’s van beide IEEE en het ACM. Dankzij zijn referenties behoort hij tot de meest getalenteerde AI-managers in de branche.
De aanwezigheid op Zoom geeft aan dat de AI-ambities van het bedrijf serieus zijn, ook al verschillen de methoden van het bedrijf van de onderzoekslaboratoria die de krantenkoppen domineren. In zijn tweet waarin hij de benchmarkresultaten vierde, beschreef Huang de prestatie als een validatie van de strategie van Zoom: “We hebben sterkere mogelijkheden ontgrendeld op het gebied van verkenning, redenering en samenwerking tussen meerdere modellen, waardoor de grenzen van de prestaties van elk model zijn verlegd.”
Die laatste clausule – “overschrijdt de prestatielimieten van elk model” – is misschien wel de belangrijkste. Huang beweert niet dat Zoom een beter model maakt. Hij beweert dat Zoom een beter systeem bouwt voor het gebruik van modellen.
Binnenin bevinden zich tests die zijn ontworpen om ’s werelds intelligentste machines in verwarring te brengen
De maatstaf die centraal staat in deze controverse, De laatste test van de mensheidontworpen om erg moeilijk te zijn. In tegenstelling tot eerdere tests waarbij AI-systemen leerden door patroonmatching, presenteert HLE problemen die echt begrip, meerstapsredenering en synthese van informatie over complexe domeinen vereisen.
Dit examen is gebaseerd op vragen van experts over de hele wereld, variërend van geavanceerde wiskunde en filosofie tot gespecialiseerde wetenschappelijke kennis. Een score van 48,1 procent klinkt misschien weinig indrukwekkend voor iedereen die bekend is met schoolcijfers, maar in de context van HLE vertegenwoordigt dit de bovengrens van de huidige motorprestaties.
“Deze benchmarks zijn wereldwijd ontwikkeld door experts op dit gebied en zijn een belangrijke maatstaf geworden voor het meten van de vooruitgang van AI in de richting van prestaties op menselijk niveau bij intellectueel uitdagende taken.” Zoomaankondiging opgemerkt.
De verbetering van 2,3 procentpunt van het bedrijf ten opzichte van het vorige record van Google lijkt misschien bescheiden. Maar bij competitieve benchmarking, waar de winst vaak slechts een fractie van een procent bedraagt, zijn zulke sprongen zorgwekkend.
Wat de aanpak van Zoom onthult over de toekomst van zakelijke AI
De aanpak van Zoom brengt implicaties met zich mee die verder gaan dan de benchmark-klassementen. Het bedrijf signaleerde een visie voor enterprise AI die fundamenteel verschilt van de modelgerichte strategie die door het bedrijf wordt geïmplementeerd Open AI, AntropischEn Googlen.
In plaats van alles te riskeren om één meest capabel model te bouwen, positioneert Zoom zichzelf als een orkestratielaag: een bedrijf dat de beste mogelijkheden van meerdere providers kan integreren en deze kan doorsturen naar producten die bedrijven al dagelijks gebruiken.
Deze strategie beschermt tegen kritische onzekerheid op de AI-markt: niemand weet welk model volgende maand het beste zal zijn, laat staan volgend jaar. Door een infrastructuur te bouwen die tussen providers kan wisselen, vermijdt Zoom de lock-in van een leverancier en biedt het klanten de beste AI die beschikbaar is voor elke taak.
Mededeling van GPT-5.2 Open AI de volgende dag onderstreepte deze dynamiek. In OpenAI’s eigen communicatie wordt Zoom genoemd als een partner die de prestaties van het nieuwe model heeft geëvalueerd “voor hun AI-workloads en meetbare verbeteringen over de hele linie heeft gezien.” Zoom is met andere woorden een toonaangevende laboratoriumklant en is nu een concurrent in hun benchmarks – met behulp van hun eigen technologie.
Deze regeling kan duurzaam blijken. Grote modelaanbieders hebben een prikkel om API-toegang op grote schaal te verkopen, zelfs aan bedrijven die hun productie zouden kunnen bundelen. De interessantere vraag is of de orkestratiemogelijkheden van Zoom echt intellectueel eigendom zijn of eenvoudigweg geavanceerde snelle engineering die door anderen kan worden gekopieerd.
De echte test kwam toen de 300 miljoen gebruikers van Zoom vragen begonnen te stellen
Zoom noemde het gedeelte van zijn aankondiging over relaties met de sector “Samenwerkende toekomst‘, en Huang bedankte hem. ‘De toekomst van AI is collaboratief, niet competitief’, schreef hij. ‘Door de beste innovaties uit de hele sector te combineren met onze eigen doorbraken in onderzoek, creëren we oplossingen die groter zijn dan alleen de som van hun individuele innovaties.’
Dit raamwerk positioneert Zoom als een genereuze integrator, die het beste werk uit de branche samenbrengt ten behoeve van zakelijke klanten. Critici zien iets anders: een bedrijf dat het prestige van een AI-lab claimt zonder het fundamentele onderzoek te doen dat daartoe heeft geleid.
Dit debat zal waarschijnlijk niet worden opgelost door het klassement, maar door het product. Wanneer AI 3.0-metgezel Als ze de komende maanden honderden miljoenen Zoom-gebruikers zullen bereiken, zullen ze hun eigen oordeel vellen – niet op basis van benchmarks waar ze nog nooit van hebben gehoord, maar op basis van de vraag of samenvattingen van bijeenkomsten echt weerspiegelen wat belangrijk is, of actiepunten zinvol zijn, of AI hen tijd heeft bespaard of verspild.
Uiteindelijk is de meest provocerende claim van Zoom misschien niet dat het aan de top van de benchmark staat. Dit kan een impliciet argument zijn dat in het tijdperk van AI het beste model niet het model is dat je maakt, maar het model dat je weet te gebruiken.

