Nog maar een paar weken geleden debuteerde Google ermee Tweeling 3 model, bewerend dat het een leidende positie heeft verworven in verschillende AI-benchmarks. Maar de uitdaging met door leveranciers geleverde benchmarks is dat ze door de leverancier worden geleverd.
Nieuwe leveranciersneutrale evaluatie van Productiefwaardoor de Gemini 3 echter bovenaan het klassement staat. Dit is niet gebaseerd op academische benchmarks; het is eerder een reeks kenmerken uit de echte wereld waar echte gebruikers en organisaties om geven.
Prolific is opgericht door onderzoekers van de Universiteit van Oxford. Het bedrijf levert hoogwaardige, betrouwbare menselijke gegevens ter ondersteuning van rigoureus onderzoek en ethische AI-ontwikkeling. bedrijf “MENSELIJKE maatstavenpast deze aanpak toe door representatieve menselijke steekproeven en blinde tests te gebruiken om AI-modellen rigoureus te vergelijken in een verscheidenheid aan gebruikersscenario’s, waarbij niet alleen de technische prestaties worden gemeten, maar ook het vertrouwen van de gebruiker, het aanpassingsvermogen en de communicatiestijl.
De nieuwste HUMAINE-test evalueerde 26.000 gebruikers in een blinde modeltest. In de evaluatie steeg de vertrouwensscore van de Gemini 3 Pro van 16% naar 69%, de hoogste ooit gemeten door Prolific. De Gemini 3 staat nu op de eerste plaats in termen van vertrouwen, ethiek en veiligheid met 69% in alle demografische subgroepen, vergeleken met zijn voorganger, de Gemini 2.5 Pro, die met 16% slechts bovenaan de lijst stond.
Over het geheel genomen stond Gemini 3 op de eerste plaats in drie van de vier evaluatiecategorieën: prestaties en redenering, interactie en aanpassingsvermogen, en vertrouwen en veiligheid. Het verloor alleen qua communicatiestijl, waarbij DeepSeek V3 met 43% bovenaan de lijst stond. HUMAINE-tests tonen ook aan dat de Gemini 3 consistent goed presteert onder 22 verschillende demografische gebruikersgroepen, inclusief variaties in leeftijd, geslacht, etniciteit en politieke oriëntatie. Uit de evaluatie bleek ook dat gebruikers nu vijf keer meer kans hebben om een model te kiezen in een onderlinge vergelijking.
Maar de ranking is minder belangrijk Waarom het wint.
“Het gaat om consistentie in verschillende gebruiksscenario’s, en een persoonlijkheid en stijl die verschillende soorten gebruikers aanspreekt”, vertelde Phelim Bradley, medeoprichter en CEO van Prolific, aan VentureBeat. “Hoewel in bepaalde gevallen andere modellen de voorkeur hebben van kleine subgroepen of bepaalde soorten gesprekken, is het de brede kennis en flexibiliteit van het model over verschillende gebruiksscenario’s en doelgroeptypen die het mogelijk maakt om deze specifieke benchmark te winnen.”
Hoe blinde tests dingen onthullen die niet aan academische normen voldoen
De methodologie van HUMAINE onthult hiaten in de manier waarop de industrie modellen evalueert. Gebruikers communiceren tegelijkertijd met twee modellen in een multi-turn gesprek. Ze weten niet welke leveranciers elk antwoord ondersteunen. Ze bespreken welke onderwerpen voor hen belangrijk zijn, geen vooraf bepaalde testvragen.
Wat belangrijk is, is het monster zelf. HUMAINE maakt gebruik van representatieve steekproeven uit de Amerikaanse en Britse bevolking, waarbij wordt gecontroleerd op leeftijd, geslacht, etniciteit en politieke oriëntatie. Dit onthult iets dat statische benchmarks niet kunnen vastleggen: de prestaties van modellen variëren per doelgroep.
“Als je AI-klassementen gebruikt, hebben de meeste nog steeds behoorlijk statische lijsten”, zegt Bradley. “Maar voor ons, als je kijkt naar het publiek, krijgen we enigszins verschillende klassementen, of je nu kijkt naar een linkse steekproef, een rechtse steekproef, de VS of Groot-Brittannië. En ik denk dat leeftijd eigenlijk de meest verschillende voorwaarde is in ons experiment.”
Voor bedrijven die AI toepassen op diverse werknemerspopulaties is dit belangrijk. Een model dat goed presteert voor de ene demografische groep, kan slecht presteren voor een andere demografische groep.
Deze methodologie beantwoordt ook een fundamentele vraag bij AI-evaluatie: waarom menselijke rechters gebruiken als AI zichzelf kan evalueren? Bradley merkte op dat zijn bedrijf in bepaalde gebruikssituaties AI-rechters gebruikt, hoewel hij benadrukte dat menselijke evaluatie nog steeds een belangrijke factor is.
“We zien het grootste voordeel dat kan worden behaald uit de intelligente orkestratie van LLM-juryleden en menselijke gegevens, die beide sterke en zwakke punten hebben die, wanneer ze op intelligente wijze worden gecombineerd, zullen resulteren in betere prestaties wanneer ze worden gecombineerd”, aldus Bradley. “Maar we denken nog steeds dat menselijke data de alfa is. We zijn nog steeds erg optimistisch dat menselijke data en menselijke intelligentie er altijd moeten zijn.”
Wat vertrouwen betekent bij AI-evaluatie
Vertrouwen, ethiek en veiligheid meten het vertrouwen van gebruikers in betrouwbaarheid, feitelijke juistheid en verantwoordelijk gedrag. In de HUMAINE-methodologie is vertrouwen geen claim van een leverancier of een technische maatstaf; vertrouwen is wat gebruikers melden na een gesloten gesprek met het model van een concurrent.
Het cijfer van 69% vertegenwoordigt de waarschijnlijkheid voor alle demografische groepen. Deze consistentie is belangrijker dan de totale scores, omdat organisaties diverse bevolkingsgroepen kunnen bedienen.
“Er was geen besef dat ze Gemini in dit scenario gebruikten”, zei Bradley. “Het is gewoon gebaseerd op blinde multi-turn respons.”
Dit scheidt het waargenomen vertrouwen van het verdiende vertrouwen. Gebruikers beoordelen de modeluitvoer zonder te weten welke leverancier deze heeft geproduceerd, waardoor het merkvoordeel van Google wordt geëlimineerd. Voor klantgerichte toepassingen waarbij de AI-leverancier onzichtbaar blijft voor eindgebruikers is dit onderscheid belangrijk.
Wat moeten bedrijven nu doen
Een van de belangrijke dingen die bedrijven vandaag de dag moeten doen als ze verschillende modellen overwegen, is het implementeren van een succesvol evaluatiekader.
“Het wordt steeds moeilijker om modellen uitsluitend op basis van trillingen te evalueren”, zegt Bradley. “Ik denk dat we steeds meer een rigoureuzere en wetenschappelijke aanpak nodig hebben om echt te begrijpen hoe deze modellen presteren.”
HUMAINE-gegevens bieden een raamwerk: test de consistentie tussen gebruiksscenario’s en gebruikersdemografieën, en niet alleen op topprestaties bij specifieke taken. Blind testen om modelkwaliteit te scheiden van merkperceptie. Gebruik representatieve voorbeelden die overeenkomen met uw werkelijke gebruikerspopulatie. Plan voor voortdurende evaluatie naarmate het model verandert.
Voor bedrijven die AI op schaal willen inzetten, betekent dit dat ze moeten overstappen van ‘welk model het beste is’ naar ‘welk model het beste is voor onze specifieke gebruiksscenario’s, gebruikersdemografie en vereiste kenmerken’.
De nauwkeurigheid van representatieve bemonstering en blinde tests levert de gegevens om dat vast te stellen – iets wat technische benchmarks en op trillingen gebaseerde evaluaties niet kunnen.



