Home Nieuws Ik ben dol op de nieuwe Gemini AI van Google, behalve als...

Ik ben dol op de nieuwe Gemini AI van Google, behalve als ik er boos van word

11
0
Ik ben dol op de nieuwe Gemini AI van Google, behalve als ik er boos van word

Nogmaals hallo, en welkom terug Snel bedrijf‘S Aangesloten.

Op 18 november kondigde Google een nieuw product aan. Meer precies: dat is het ook verklaard dat dit een ‘nieuw tijdperk’ inluidt – een nieuw tijdperk voor technologiebedrijven Doen wanneer zij Echt wil dat je er aandacht aan besteedt.

Het product in kwestie is Tweeling 3 Pronieuwste versie van Google LLM. Dit is niet alleen de basis van Google’s ChatGPT-achtige chatbot, ook wel Gemini genoemd. Dit ligt ten grondslag aan een groot aantal functies in vlaggenschipaanbiedingen zoals Google Zoeken, Gmail en Android. Het ondersteunt Antigravity, de nieuwe Google AI dat codeerplatform debuteerde op dezelfde dag. En dankzij Google Cloud is dit model ook beschikbaar voor externe ontwikkelaars als bouwsteen voor hun applicaties.

Kortom, de Gemini 3 Pro is van cruciaal belang voor de ambities van Google om een ​​grote AI-speler te worden. Als Google DeepMind-CEO Demis Hassabis Zoals het bedrijf in zijn aankondiging zegt, ziet het het als een “grote stap in de richting van AGI” – AI die in staat is om op zijn minst de meeste cognitieve taken uit te voeren, net als mensen. In de aankondiging staat dat de Gemini 3 Pro “redenering op PhD-niveau demonstreert.”

Google ondersteunt zijn beweringen met een tabel met twintig AI-benchmarks die de Gemini 3 Pro verslaan (en vaak gewoon verslaan): Gemini 2 Pro, OpenAI’s GPT-5.1 en Anthropic’s Claude Sonnet 4.5. De laatste test van de mensheidis bijvoorbeeld een toets met 2.500 vragen over wiskunde, natuurkunde, geesteswetenschappen en andere onderwerpen. Het is ontworpen om extreem moeilijk te zijn (zoals de naam al doet vermoeden) en dat is het ook debat over de vraag of het antwoord zo vaag is dat sommige theoretisch correcte antwoorden weinig of fout zijn. Op basis van de Google-tabel kreeg GPT-5.1 een score van 26,5%, terwijl Claude Sonnet 4.5 slechts een score van 13,7% kreeg. De Gemini 3 Pro scoorde daarentegen 37,5% en deed het zelfs nog beter als hij zoekopdrachten mocht uitvoeren en code mocht uitvoeren, met een score van 45,8%.

Buiten het laboratorium werd de Gemini 3 Pro net zo enthousiast ontvangen als elk nieuw AI-model dat ik me kan herinneren. Ethan Mollick, een van mijn favoriete leveranciers van AI-analyses op basis van direct gebruik, duidelijk dat is heel goed.” Nog een gezegd het voldoet aan de hoge verwachtingen van OpenAI’s GPT-5 opgewonden maar kon niet tevredenstellen.

Terwijl ik dit schrijf, speel ik nog maar een paar dagen met de Gemini-chatbot. Veel van de ervaringen waren positief. De twee schrijfopdrachten die ik kreeg zijn heel goed gelukt: een artikel over toekomstige centen een gedetailleerd rapport over de minicomputerprijzen van Digital Equipment Corp. Jaren 60. Dit is de eerste stap in een eenvoudig trillingscoderingsproject: het bouwen van een zoekmachine voor Snel bedrijf‘S Het volgende grote ding in technologie—Het is een beetje rommelig, maar toen ik het expliciet in de “Build”-modus zette, was de taak binnen enkele minuten succesvol. Het blinkt ook uit in het uitzoeken wat er aan de hand is in de verschillende foto’s die ik upload.

Maar ondanks dat alles tot nu toe goed gaat, heb ik sinds ik het probeerde ook aanzienlijke problemen met de Gemini 3 Pro ondervonden. Ze maakten me erg op mijn hoede voor de verregaande beweringen van Google dat LLM’s bereid zijn om gebruikers te helpen “alles te leren” en antwoorden te geven die “slim, beknopt en direct waren, waarbij clichés en vleierij werden ingewisseld voor echt inzicht.”

Mijn gebrekkige interacties gingen vooral over animatie en strips, onderwerpen die ik behandelde toen ik met de nieuwe AI speelde, omdat ik die goed genoeg kende om de fouten te ontdekken. Toen hem hierover werd gevraagd, had Gemini herhaaldelijk hallucinaties.

Toen ik bijvoorbeeld vroeg of Walt Disney er zelf ooit aan had gewerkt Mickey Mouse stripverhaal, LLM gaf me het juiste antwoord (ja, al was het maar kort), maar gaf me toen een heleboel feiten waar ik niet naar vroeg en die eigenlijk niet feitelijk waren. Er wordt bijvoorbeeld gezegd dat toen de oude tekenaar van de strip met pensioen ging, Mickey en Minnie op zijn laatste paneel naar een zonsondergang staarden, een subtiele manier om zijn vertrek te markeren. (Een dergelijke strip is niet verschenen.) In een andere chat creëerden ze een uitgebreid en volledig fictief achtergrondverhaal waarbij een andere cartoonist betrokken was die ook een gerenommeerd animatiehistoricus was, waarvan ik dacht dat het ‘goed gedocumenteerd’ en ‘geprezen’ was.

Het is niet alleen Gemini die hallucineert. ChatGPT en Claude doen ook nog steeds hetzelfde. Maar meer dan enig ander model heeft de Gemini de neiging zijn mislukkingen te verergeren door mij in de maling te nemen. Het wijzen op de fouten ervan leidde tot enkele van de vreemdste uitwisselingen die ik met AI heb gehad sinds februari 2023, toen Microsoft Bing gezegd hij wilde niet meer met mij praten.

(Volledige openbaarmaking: ik begrijp dat de AI eenvoudigweg een reeks woorden aan elkaar rijgt die hij niet begrijpt. Al zijn mensachtige eigenschappen, of ze nu indrukwekkend of irritant zijn, zijn simulaties. Maar het is moeilijk om daarover te schrijven zonder in een zekere mate van antropomorfisering te vervallen!)

Keer op keer erkende Gemini de onnauwkeurigheden, maar hield vol dat het ‘kennis’, ‘algemene misvattingen’ of voorbeelden van mijn eigen verwarring waren. In één geval gaven ze uiteindelijk toe: „Ik heb je in dit gesprek in de steek gelaten door details te verzinnen om eerdere fouten te verdoezelen.” In andere gevallen blijven ze beweren dat dit waar is, en komen ze met citaten waarin het onderwerp niet eens wordt genoemd.

Ik beweer niet dat het lot van AI afhangt van hoeveel technologie weet over oude tekenfilms. Als er echter een bedrijf is dat de verantwoordelijkheid draagt ​​om ervoor te zorgen dat zijn LLM een betrouwbare bron van algemene informatie is, dan is het Google wel. Het feit dat ik zo snel in de afgrond van door AI gegenereerde desinformatie terechtkwam, voorspelt niet veel goeds.

Een deel van het probleem ligt in het feit dat de Gemini 3 Pro twee modi biedt: ‘Snel’ en ‘Denken’. De eerste is de standaard en is verantwoordelijk voor de weigeringen die ik tegenkwam, waarvan er tenminste één betrekking had op het samenvoegen van de twee afzonderlijke onderwerpen die ik ter sprake bracht. Tot nu toe werkte de Denkmodus beter in mijn experimenten. Maar zelfs de snelste AI-modellen moeten voldoen aan normen van nauwkeurigheid en goed gedrag, tenminste als ze worden gepresenteerd als een manier om ‘iets te leren’. (Zoals veel AI-tools heeft de Gemini-chatbot een disclaimer voor mogelijke fouten.)

Nogmaals, Gemini 3 Pro is indrukwekkend in veel opzichten. De lancering is echter opnieuw een voorbeeld van hoe de AI-industrie een al te bemoedigend beeld schetst van wat zij heeft bereikt. Dit onderstreept ook dat benchmarks ons slechts zoveel vertellen over de prestaties van een model in de echte wereld.

Toen OpenAI deze maand drie jaar geleden ChatGPT introduceerde, deed het dat in een mum van tijd korte blogpost die moeite doet om de beperkingen van de bot in detail te beschrijven en vermijdt grote uitspraken te doen over zijn toekomst. Het bleek behoorlijk effectief om zijn nieuwe productdoorbraken voor zichzelf te laten spreken marketing strategie. Zelfs als AI-titanen strijden om glorie in misschien wel de meest hypercompetitieve technologiecategorie aller tijden, moeten ze die lessen in gedachten houden.

Je hebt gelezen Geïnstalleerd, snel bedrijfWekelijkse technologienieuwsbrief van mij, mondiaal technologieredacteur Harry McCracken. Als een vriend of collega dit probleem naar u doorstuurt (of als u het op fastcompany.com leest), kunt u dat doen bekijk eerdere uitgaven en meld u aan om het zelf te krijgen elke vrijdagochtend. Ik hoor graag wat je ervan vindt: Stuur mij een bericht hmccracken@fastcompany.com met uw input en ideeën voor toekomstige nieuwsbrieven. Ik kom ook blauwe lucht, mastodontenEn draaden dat kan volgen Aangesloten op Flipboard.

Nog een toptechverhaal van Fast Company

De strijd tegen de AI-oligarchie speelt zich af in deze welvarende wijk van New York
Twee congreskandidaten hebben van AI een centraal thema gemaakt in hun campagnes. Lees verder →

De weg van Crypto naar legitimiteit hangt af van de industrie zelf, en niet alleen van politici
Alleen interne cultuurverandering en strikte zelfcontrole kunnen voor algemene publieke goedkeuring zorgen. Lees verder →

De AI-chatbot slaat geen media op. Maar welke macht zouden zij kunnen hebben?
Agents die door uitgevers zijn gebouwd op basis van vertrouwde archieven kunnen jarenlange rapportage omzetten in een echt product, en niet alleen maar een chatwidget. Lees verder →

Dit enorme nieuwe datacenter wordt aangedreven door gebruikte EV-batterijen
Een nieuw project van start-up voor batterijrecycling Redwood Materials en datacentermaker Crusoe laat zien dat het mogelijk is om datacenters goedkoper en sneller te bouwen en tegelijkertijd de uitstoot te verminderen.Lees verder →

Waarom de AI-diplomatie van Trump gedoemd is te mislukken
Deze week staan ​​er chips op het menu in het Witte Huis Lees verder →

Zelfs (vooral) in het AI-tijdperk is dit de reden waarom ik mensen inhuur op basis van karakter boven vaardigheid
Want dat is wat echt talent onthult. Lees verder →

Uiterste deadline voor Fast Company Prijs voor wereldveranderende ideeën is vrijdag 12 december om 23:59 uur. PT. Solliciteer vandaag nog.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in