Home Nieuws Het enige dat tussen de mensheid en een AI-apocalyps staat, is… Claude?

Het enige dat tussen de mensheid en een AI-apocalyps staat, is… Claude?

8
0
Het enige dat tussen de mensheid en een AI-apocalyps staat, is… Claude?

Anthropic zit gevangen in een paradox: dat wil zeggen dat het tot de top van AI-bedrijven behoort meest geobsedeerd met beveiliging en leidde de groep bij het onderzoeken hoe het model fout kon gaan. Maar ook al veiligheidsproblemen Anthropic is nog lang niet opgelost en is net zo agressief als zijn concurrenten bij het bereiken van het volgende, potentieel gevaarlijkere niveau van kunstmatige intelligentie. De kernmissie is het vinden van een manier om deze tegenstellingen op te lossen.

Vorige maand bracht Anthropic twee documenten uit waarin de risico’s werden erkend die verbonden zijn aan het pad dat het volgt, en waarin werd verwezen naar een pad dat zou kunnen worden gevolgd om aan de paradox te ontsnappen. “Technologische adolescentie“, een lange blogpost van CEO Dario Amodei, spreekt nominaal over ‘het confronteren en overwinnen van de risico’s van krachtige AI’, maar hij besteedt meer tijd aan het bespreken van AI dan aan AI. Amodei beschrijft deze uitdagingen tactvol als ‘afschrikwekkend’, maar zijn weergave van AI-risico’s – veel erger gemaakt, zegt hij, vanwege de grote kans dat de technologie door de autoriteiten zal worden misbruikt – staat in contrast met zijn eerdere, meer optimistische, proto-utopische essay ‘De machine van genade.”

De post spreekt over een natie van datacentergenieën; recente transporten riepen ‘een grenzeloze zwarte zee’ op. Dante Pagina! Echter, na meer dan 20.000 overwegend sombere woorden slaat Amodei eindelijk een toon van optimisme aan, door te zeggen dat zelfs in de donkerste situaties de mensheid altijd zegeviert.

Het tweede document van Anthropic werd in januari gepubliceerd: “Claude Grondwetricht zich op hoe deze truc kan worden bereikt. Deze tekst is technisch gezien gericht op één doelgroep: Claude zelf (evenals toekomstige chatbotversies). Het is een aangrijpend document dat de visie van Anthropic onthult over hoe Claude, en misschien zijn AI-metgezellen, de uitdagingen van de wereld zullen aangaan. Kort gezegd: Anthropic is van plan op Claude zelf te vertrouwen om de Gordiaanse knoop van zijn bedrijf te ontwarren.

De marktdifferentiator van Anthropic wordt lange tijd technologie genoemd Constitutionele AI. Het is een proces waarin de modellen zich houden aan een reeks principes die de waarden ervan afstemmen op een gezonde menselijke ethiek. De oorspronkelijke grondwet van Claude bevatte een aantal documenten die bedoeld waren om deze waarden te belichamen – zoals Sparrow (een reeks antiracistische en anti-geweldverklaringen opgesteld door DeepMind), de Universele Verklaring van de Rechten van de Mens en de servicevoorwaarden van Apple (!). De versie die in 2026 is bijgewerkt, is anders: het is meer een lange gids die het ethische raamwerk schetst dat Claude zal volgen en zelf de beste weg naar de waarheid zal vinden.

Amanda Askell, promovendus in de filosofie en hoofdauteur van deze herziening, legt uit dat de antropische benadering krachtiger is dan simpelweg Claude een reeks vaste regels laten volgen. “Als mensen regels volgen zonder enige andere reden dan omdat ze bestaan, is dat vaak erger dan wanneer je begrijpt waarom de regels bestaan”, legt Askell uit. De grondwet bepaalt dat Claude een ‘onafhankelijk oordeel’ moet vellen wanneer hij wordt geconfronteerd met situaties die een evenwicht vereisen tussen het mandaat van behulpzaamheid, veiligheid en eerlijkheid.

De Grondwet zegt het zo: ‘Hoewel we willen dat Claude redelijk en grondig is als hij expliciet over ethiek nadenkt, willen we ook dat Claude intuïtief gevoelig is voor een breed scala aan overwegingen en in staat is om deze overwegingen snel en verstandig in overweging te nemen bij de besluitvorming.’ Intuïtief is hier de juiste woordkeuze – de veronderstelling lijkt te zijn dat er meer is dan alleen een algoritme dat het volgende woord selecteert. Het ‘Claude Instituut’, zoals het wordt genoemd, sprak ook de hoop uit dat chatbots ‘in toenemende mate hun eigen wijsheid en begrip kunnen gebruiken’.

Wijsheid? Natuurlijk accepteren veel mensen het advies van grote taalmodellen, maar het is iets anders om toe te geven dat dergelijke algoritmische hulpmiddelen feitelijk de aantrekkingskracht hebben die met de term gepaard gaat. Askell deinsde niet terug toen ik dit zei. ‘Ik denk dat Claude een zekere wijsheid moet hebben,’ vertelde hij me.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in