- Steeds meer grote nieuwssites blokkeren de Wayback Machine
- Het omvat naar verluidt 23 organisaties die voorkomen dat hun inhoud in de archieven verschijnt
- Dit gebeurde vanwege zorgen dat de Wayback Machine werd uitgebuit voor het schrapen van AI-inhoud
De Wayback Machine wordt ernstig bedreigd (en niet voor de eerste keer), omdat steeds meer grote nieuwssites het archiveringssysteem blokkeren.
Als u niet bekend bent met de Wayback Machine: deze wordt beheerd door het non-profit Internet Archive en is in wezen een tijdmachine die de geschiedenis van het internet (en nog veel meer) opslaat. Dit is bijvoorbeeld van belang als het gaat om historisch onderzoek of het monitoren van wijzigingen aan een website.
Zoals Wired meldde (via Mac 9 tot en met 5) is er een groeiende trend waarbij onlinenieuwskanalen de webcrawlers blokkeren die het Internet Archive gebruikt om zijn beeldmateriaal te verzamelen. Volgens Originality AI (gespecialiseerd in AI-detectie) doen inmiddels ongeveer 23 grote nieuwssites dit.
Artikel gaat hieronder verder
Deze omvatten de New York Times (gebaseerd op een Nieman Lab-rapport) en USA Today, waarbij Wired benadrukt dat USA Today onlangs een rapport heeft gepubliceerd over hoe de Amerikaanse immigratie- en douanehandhaving het openbaar maken van belangrijke informatie over de impact van het detentiebeleid heeft vertraagd. Dit is een werk dat de Wayback Machine uitgebreid gebruikt in zijn onderzoek.
De ironie van het feit dat USA Today deze gegevens op een dergelijke manier gebruikt en tegelijkertijd Wayback Machine de toegang tot zijn eigen inhoud blokkeert – waardoor de nieuwssite in de toekomst eerlijk kan blijven – gaat niet verloren bij Wayback Machine-directeur Mark Graham.
Graham vertelde Wired: “Ze konden het verhaal onderzoeken dankzij de Wayback Machine. Tegelijkertijd blokkeerden ze de toegang.”
Als meer organisaties de Wayback Machine gaan blokkeren, zal het vermogen om een historisch overzicht van online-inhoud bij te houden verder worden uitgehold.
Analyse: geef AI (opnieuw) de schuld
Dus waarom gebeurt dit? Dit gaat niet over lezers die inhoud met een betaalmuur vermijden met behulp van de Wayback Machine, als je dacht dat dat het geval was. Zou het je verbazen als je hoort dat het feitelijk om AI gaat, indirect? Natuurlijk gaat dit niet gebeuren, en op voorspelbare wijze lijkt het erop dat het internetarchief verstrikt is geraakt in de wijdverbreide reactie tegen AI hier.
Waar deze nieuwsorganisaties bezwaar tegen maken is niet dat de historische gegevens van hun inhoud worden bijgehouden, maar het feit dat deze archieven door externe AI-bedrijven kunnen worden gebruikt om hun modellen (LLM) te trainen.
Zoals Wired opmerkt, zei Graham James, woordvoerder van de New York Times: “Het probleem is dat Times-inhoud op het internetarchief wordt gebruikt door AI-bedrijven die de auteursrechtwetgeving schenden om rechtstreeks met ons te concurreren.”
Kortom, de zorg voor deze bedrijven is dat ze de AI-scraping-activiteit misschien wel zelf kunnen blokkeren, maar dat het nog steeds achter hun rug om gebeurt via de Wayback Machine. Het zijn niet alleen de grote nieuwskanalen die deze zorgen hebben, maar ook sociale-mediaplatforms, met name Reddit, die de Wayback Machine-webcrawler heeft geblokkeerd vanwege dezelfde zorgen.
Hoewel er andere mogelijke bronnen en manieren zijn om indirect nieuwsinhoud op te halen, is de Wayback Machine het meest voor de hand liggende doelwit voor malafide AI-operators, omdat deze over een zeer uitgebreide bibliotheek met webgeschiedenis beschikt.
Het is dus een complexe kwestie die verband houdt met AI-erosie en veel grijze gebieden als het gaat om de legaliteit ervan. De impact op de middelen die essentieel zijn voor het monitoren van regeringen of mediagiganten – en het ter verantwoording roepen van hen voor wat er in het verleden is gezegd, of voor wat in sommige gevallen volledig van het internet is verwijderd – is echter duidelijk zorgwekkend.
Graham beweerde dat: “Er bestaat geen twijfel over dat de algemene sluiting van openbare netwerken een impact heeft op het vermogen van de samenleving om te begrijpen wat er in onze wereld gebeurt.”
Er werd een petitie opgesteld met de titel ‘Journalisten juichen de rol van het internetarchief bij het bewaren van openbare documenten toe’, met meer dan 100 handtekeningen van werkende journalisten. Ondertussen is er nog steeds een dialoog gaande tussen het internetarchief en de nieuwsuitgever, dus de hoop op het vinden van een werkbare oplossing is niet verloren.

De beste computers voor elk budget
Volg TechRadar op Google Nieuws En voeg ons toe als voorkeursbron om nieuws, recensies en onze deskundige meningen in uw feed te krijgen. Klik dan zeker op de knop Volgen!
En jij kunt dat natuurlijk ook Volg TechRadar op TikTok voor nieuws, recensies, unboxings in videovorm en ontvang regelmatig updates van ons Wat is het Ook.


