Home Nieuws CEO van Surge AI zegt dat bedrijf aan het optimaliseren is voor...

CEO van Surge AI zegt dat bedrijf aan het optimaliseren is voor ‘AI Slop’

7
0
CEO van Surge AI zegt dat bedrijf aan het optimaliseren is voor ‘AI Slop’

AI-bedrijven geven prioriteit aan flash boven inhoud, zei hij AI-golf CEO.

“Ik ben bang dat we, in plaats van AI te bouwen die ons als soort daadwerkelijk vooruit zal helpen, kanker zal genezen, armoede zal oplossen, universalia en al deze grote vragen zal begrijpen, in plaats daarvan zullen optimaliseren voor de mislukkingen van AI”, zei Edwin Chen in een aflevering van de ‘Lenny’-podcast die zondag werd gepubliceerd.

“We leren onze modellen in feite dopamine na te jagen, niet de waarheid”, voegde hij eraan toe.

Chen opgericht AI-training startup Surge in 2020 na gewerkt te hebben bij Twitter, Google en Meta. Surge loopt Prestatieplatform voor gegevensannotatie, die zeiden dat ze een miljoen freelancers betaalden om AI-modellen te trainen. Surge concurreert met start-ups op het gebied van datalabeling, zoals Scale AI en Mercor, en beschouwt Anthropic als klant.

Op de podcast van zondag zei Chen dat het bedrijf prioriteit geeft aan AI-fouten vanwege de klassementen in de sector.

“Op dit moment wordt de industrie gespeeld door waardeloze klassementen als LMArena”, zei hij, verwijzend naar populaire online klassementen waarop het publiek kan stemmen welke AI-reacties beter zijn.

“Ze hebben de feiten niet zorgvuldig gelezen of gecontroleerd”, zei hij. “Ze bladeren twee seconden lang door deze reacties en kiezen wat het meest opvalt.”

Hij voegde eraan toe: “Het optimaliseert je model echt voor het type persoon dat roddelbladen in de supermarkt koopt.”

Nog steeds, Surge-CEO zegt dat AI-labs aandacht moeten besteden aan deze scoreborden, omdat hen tijdens verkoopbijeenkomsten naar hun ranglijst kan worden gevraagd.

Net als Chen doen wetenschappers onderzoek Bekritiseerde benchmarks voor het overschatten van oppervlakkige eigenschappen.

In een blogpost van maart zei Dean Valentine, mede-oprichter en CEO van AI-beveiligingsstartup ZeroPath: “De recente vooruitgang in AI-modellen voelt als onzin.”

Valentine zei dat hij en zijn team de prestaties hebben geëvalueerd van verschillende modellen die beweren “een of andere verbetering” te hebben sinds de lancering van Sonnet 3.5 Anthropic in juni 2024. Geen van de nieuwe modellen die zijn team probeerde, maakte een “significant verschil” in de interne benchmarks van zijn bedrijf of in het vermogen van ontwikkelaars om nieuwe bugs te vinden, zei hij.

Ze zijn misschien ‘aangenaamer om mee te praten’, maar ze ‘weerspiegelen niet het economisch nut of de algemeenheid.’

In een paper uit februari met de titel “Can we trust AI Benchmarks?” onderzoekers van het Gemeenschappelijk Centrum voor Onderzoek van de Europese Commissie concludeerden dat er grote problemen zijn met de huidige evaluatiebenaderingen.

De onderzoekers zeggen dat benchmarking “fundamenteel wordt gevormd door de culturele, commerciële en competitieve dynamiek die vaak prioriteit geeft aan baanbrekende prestaties ten koste van bredere maatschappelijke belangen.”

Bedrijven zijn ook onder vuur komen te liggen omdat ze deze benchmarks ‘gamen’.

In april bracht Meta twee nieuwe modellen in de Llama-familie uit die volgens haar “betere resultaten” opleverden dan modellen van vergelijkbare grootte van Google en het Franse AI-laboratorium Mistral. Later kregen ze te maken met beschuldigingen dat ze als maatstaf hadden gediend.

LMArena zei dat Meta “duidelijk had moeten maken” dat het een versie van Llama 4 Maverick had verzonden die was “afgestemd” om beter te presteren voor zijn testformaat.

“Meta’s interpretatie van ons beleid komt niet overeen met wat we van modelaanbieders verwachten”, aldus LMArena in een verklaring X berichten.



Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in