Home Nieuws Waarom AI zijn eigen afval traint (en hoe dit te verhelpen)

Waarom AI zijn eigen afval traint (en hoe dit te verhelpen)

1
0
Waarom AI zijn eigen afval traint (en hoe dit te verhelpen)

Misschien ben je al een tijdje een LLM/Agent/Chat-gebruiker in AI, maar heb je jezelf ooit afgevraagd hoe deze tools in de nabije toekomst zullen worden getraind, en wat als we de gegevens die we nodig hebben al gebruiken om modellen te trainen? Veel theorieën zeggen dat we bijna geen hoogwaardige, door mensen gegenereerde gegevens meer hebben om onze modellen te trainen.

Er komt elke dag nieuwe content bij, en dat is een realiteit, maar de toename van de hoeveelheid content die elke dag wordt toegevoegd is een gevolg van AI. Dus als u blijft trainen op openbare webgegevens, traint u uiteindelijk op de output van uw voorganger. De slang at zijn staart op. Onderzoekers noemen dit fenomeen Model Collapse, waarbij een AI-model begint te leren van de fouten van zijn voorgangers totdat het hele systeem onzinnig wordt.

Maar wat als ik je vertel dat we eigenlijk niet zonder gegevens komen te zitten? We zochten gewoon op de verkeerde plaats.

In dit artikel zal ik de belangrijkste inzichten uit dit briljante artikel schetsen.

Websites die we hebben gebruikt en belangrijke websites

De meesten van ons beschouwen het internet als een unieke informatiebron. In werkelijkheid zijn het er minstens twee.

Er is het Surface Web: de geïndexeerde publieke wereld die we vinden op Reddit, Wikipedia en nieuwssites. Dit is wat we in de loop der jaren buitensporig hebben verzameld en gebruikt om de huidige reguliere AI-modellen te trainen. Dan is er nog wat wij het Deep Web noemen, en hier heb ik het niet over het “Dark Web” of iets illegaals.

Het Deep Web is simpelweg alles achter een login of firewall. Dit verwijst naar alles online dat niet openbaar is geïndexeerd. Dit kan het patiëntenportaal van uw ziekenhuis zijn, het interne dashboard van uw bank, bedrijfsdocumentarchieven, persoonlijke databases en jarenlange e-mails achter inlogschermen. Normale, saaie, maar zeer waardevolle data.

Uit veel onderzoeken blijkt dat het Deep Web vele malen groter is dan het Surface Web. Belangrijker nog is dat de datakwaliteit veel beter is. Vergeleken met oppervlakkige webinhoud, die luidruchtig kan zijn, vol verkeerde informatie en sterk geoptimaliseerd is voor SEO. Bovendien is steeds meer inhoud opzettelijk ontworpen om AI-modellen te misleiden of te vergiftigen. Deep web-gegevens, zoals medische dossiers of geverifieerde financiële documenten of andere interne databases, zijn doorgaans schoon, geauthenticeerd en beheerd door mensen die om de kwaliteit ervan geven.

Het probleem? Ik denk dat je het wel kunt raden, het is persoonlijk. Je kunt niet zomaar een miljoen medische dossiers meenemen zonder rekening te houden met alle juridische en ethische gevolgen die dit met zich meebrengt.

PROPS-framework

Dit is waar een nieuw raamwerk genaamd PROPS (Protected Pipelines) in het spel komt. Geïntroduceerd door Ari Juels (Cornell Tech), Farinaz Koushanfar (UCSD) en Laurence Moroney (voormalig Google AI Lead), fungeert PROPS als een brug tussen deze gevoelige gegevens en de AI-modellen die deze nodig hebben.

Het mooie van PROPS is dat het u niet vraagt ​​uw gegevens “op te geven”. In plaats daarvan maakt het gebruik van privacybehoudende orakels. Beschouw een orakel als een ‘vertrouwde tussenpersoon’ die naar uw gegevens kan kijken, de authenticiteit ervan kan verifiëren en vervolgens het AI-model kan vertellen wat het moet weten zonder het model de ruwe informatie te hoeven tonen.

Het concept van deze tool klinkt magisch omdat het veel van de problemen met de beschikbaarheid van gegevens kan oplossen waarmee AI-modellen tegenwoordig worden geconfronteerd. Maar hoe werkt het precies? Laten we het voorbeeld nemen van een medisch bedrijf dat een diagnostisch hulpmiddel wil trainen op basis van echte medische dossiers. Onder het PROPS-framework:

  1. Toestemming: Als gebruiker logt u in op uw eigen gezondheidsportaal en geeft u toestemming voor specifiek gebruik van uw gegevens.
  2. Waarzegger: Beschouw Oracle als een digitale notaris. Het logt in op uw persoonlijke portaal (zoals uw ziekenhuisdatabase) om te verifiëren dat uw gegevens echt zijn. In plaats van uw bestanden te kopiëren, vertelt het eenvoudigweg aan het AI-systeem: “Ik heb het originele document gezien en ik getuig dat het document echt is.” Dit levert een bewijs van waarheidsgetrouwheid zonder dat de persoonlijke gegevens zelf ooit worden overhandigd. Hiervoor bestaan ​​bijvoorbeeld al tools DEKO. Dat is protocollair waarmee gebruikers kunnen bewijzen dat ze bepaalde gegevens van een webserver hebben opgehaald via een beveiligd TLS-kanaal.
  3. Veilig zakgebied: Dit is de ‘zwarte doos’ in de computerhardware waar de daadwerkelijke training plaatsvindt. We voeren het AI-model en jouw persoonlijke gegevens erin en ‘doen de deur op slot’. Geen mens of ontwikkelaar kan zien wat er binnenin gebeurt. AI ‘leert’ de gegevens en laat alleen de modelgewichten over. De onbewerkte gegevens blijven binnenin vergrendeld totdat de sessie is voltooid.
  4. Het resultaat: Het model traint op de gegevens in dat vak. Alleen het bijgewerkte “gewicht” (leren) komt uit. De ruwe gegevens zijn nooit zichtbaar voor het menselijk oog.

Bijdragers weten precies waar ze mee instemmen en kunnen worden beloond voor deelname op een manier die is afgestemd op hoe waardevol hun specifieke gegevens zijn. Dit is een heel andere relatie tussen data-eigenaren en AI-systemen.

Maar waarom zou je dit gebruiken in plaats van synthetische data?

Sommigen vragen zich misschien af: “Waarom zouden we ons druk maken over deze ingewikkelde opzet als we gewoon synthetische gegevens kunnen genereren?”

Het antwoord is dat synthetische data een diversiteitsmoordenaar zijn. Per definitie versterkt het genereren van synthetische gegevens het midden van de belcurve. Als u een zeldzame medische aandoening heeft die slechts 0,01% van de bevolking treft, zal een synthetische datagenerator u waarschijnlijk afdoen als ‘ruis’.

Modellen die zijn getraind met behulp van synthetische gegevens worden steeds slechter in het presenteren van uitschieters. PROPS lost dit probleem op door een veilige manier te creëren voor mensen met zeldzame aandoeningen of unieke achtergronden om zich aan te melden. Dit verandert het delen van gegevens van een privacyrisico in een ‘datamarktplaats’. waar waardevolle data de beloning krijgen die ze verdienen.

Het gaat niet alleen om training, gevolgtrekking is ook belangrijk

Het grootste deel van de discussie gaat over training, maar PROPS heeft even interessante toepassingen op het gebied van de gevolgtrekkingen.

Als u tegenwoordig bijvoorbeeld een lening wilt krijgen, moet u veel documenten indienen: bankafschriften, betalingsbewijzen en belastingaangiften. In op PROPS gebaseerde systemen raden ze aan om het Loan Decision Model (LDM) te gebruiken:

  1. U geeft LDM toestemming om rechtstreeks met uw bank te spreken.
  2. De bank bevestigt uw saldo via een privacybeschermend orakel.
  3. LDM neemt de beslissing.
  4. Het resultaat? Kredietverstrekkers krijgen een geverifieerd ‘Ja’ of ‘Nee’ antwoord zonder ooit uw persoonlijke documenten aan te raken. Dit elimineert het risico op datalekken en maakt het bijna onmogelijk voor mensen om valse gefotoshopte documenten te gebruiken.

Wat verhindert precies dat dit in 2026 gebeurt?

Dit is afhankelijk van schaalgrootte en infrastructuur.

De meest robuuste versies van PROPS vereisen dat training wordt uitgevoerd binnen een voor hardware geschikte veilige enclave (zoals Intel SGX of NVIDIA’s TEE H100). Deze werken goed op kleine schaal, maar het is nog steeds een open technisch probleem om ze te laten werken voor de grote GPU-clusters die nodig zijn voor front-end LLM. Er is een groot cluster nodig om in perfecte gecodeerde synchronisatie te kunnen werken.

De onderzoekers zijn van mening dat PROPS geen eindproduct is. Dit is een overtuigend proof-of-concept. Tegenwoordig kan echter een lichtere versie worden geïmplementeerd. Zelfs zonder volledige hardwaregarantie kunt u een systeem bouwen dat betekenisvolle garanties biedt aan gebruikers, wat een verbetering is ten opzichte van het feit dat iemand u een PDF per e-mail stuurt.

Mijn eigen laatste gedachten

PROPS is eigenlijk geen “nieuwe” technologie; dit is een nieuwe toepassing van een bestaande tool. Privacybeschermende orakels worden al jaren gebruikt in de blockchain- en Web3-ruimte (zoals Chainlink). Het inzicht hier is om te erkennen dat dezelfde tools de AI-datacrisis kunnen oplossen.

De ‘datacrisis’ is geen gebrek aan informatie; het is een gebrek aan vertrouwen. We hebben meer dan genoeg gegevens om de volgende generatie AI te bouwen, maar deze zitten opgesloten achter de deuren van het Deep Web. Slangen hoeven hun staarten niet op te eten; hij moest gewoon een betere tuin vinden.

👉 LinkedIn: Sabrine Bendimerad

👉 Momenteel: https://medium.com/@sabrine.bendimerad1

👉 Instagram: https://tinyurl.com/datailearn

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in