10.05.2025
12 Street, Rome City, Italy
Technology

un quarto dei siti sono scomparsi


Internet sta scomparendo. Secondo una nuova ricerca del centro studi statunitense Pew Research Center, un quarto di tutte le pagine web che esistevano tra il 2013 e il 2023 oggi non sono più accessibili, mentre il 38% dei siti presenti sul web nel 2013 oggi rimandano a link inesistenti. Per condurre lo studio, i ricercatori hanno analizzato un campione casuale di circa 1 milione di pagine web scaricate da Common Crawl, un archivio online che raccoglie periodicamente delle “istantanee” dell’intera rete Internet in diversi momenti nel tempo. Particolarmente colpiti dal fenomeno i siti di informazione e quelli governativi. Il 23% delle pagine web contenenti notizie presenta, secondo i ricercatori, almeno un collegamento non funzionante, così come il 21% delle pagine web di siti governativi. 

Il 54% delle pagine di Wikipedia contiene almeno un collegamento che punta a una pagina inesistente, mentre su X un tweet su cinque non è più visibile appena pochi mesi dopo la pubblicazione. A monte di questo fenomeno c’è quello che i ricercatori chiamano “decadimento digitale”, la perdita diffusa di dati caricati sul web, che ha diverse cause. La prima riguarda la struttura stessa dei file e il modo in cui vengono conservati: non solo gli hard disk – compresi i moderni SSD — non sono eterni ma spesso basta uno sbalzo di tensione per rendere inaccessibili, in tutto o in parte, i file contenuti al loro interno. 

Il Getty Research Institute di Los Angeles ha recentemente analizzato una collezione di foto di arazzi in bianco e nero digitalizzati nel 2002 e da allora rimasti fermi immobili su un server. Dodici anni dopo, dei 5.000 file che compongono questa raccolta, dieci risultano danneggiati (“corrupted”) al punto da non poter essere più recuperati. Si tratta di dieci file persi semplicemente rimanendo fermi su un server nel tempo. Tra le altre cause del “digital decay”, la semplice eliminazione di singole pagine da parte dei proprietari di siti web fino ai cambiamenti nella struttura di indicizzazione di quei siti. Per quanto riguarda i social media, nel 60% dei casi l’account che originariamente aveva pubblicato il contenuto è stato reso privato, sospeso o cancellato del tutto. Nel restante 40%, il titolare dell’account ha semplicemente cancellato il singolo post. 

Il paradigma del web contemporaneo ci ha abituato all’idea che tutto ciò che viene caricato sul web sia eterno. Il fenomeno del decadimento digitale sposta adesso l’asse sul versante opposto, mettendoci di fronte a tutta la fragilità delle centinaia di miliardi di pagine web a cui sempre più abbiamo delegato nel tempo la nostra memoria storica. Con conseguenze potenzialmente disastrose in un’era in cui la quantità di contenuti creati da zero grazie all’intelligenza artificiale sta aumentando a dismisura. Un rapporto di 39 pagine recentemente pubblicato da OpenAI ha rivelato come la stessa azienda sia riuscita negli ultimi tre mesi a riconoscere e interrompere campagne di disinformazione altamente mirate provenienti da Russia, Cina, Israele e Iran. Gli attivisti usavano l’IA per tradurre, modificare e diffondere notizie false, oppure per creare nomi e biografie per account fittizi da utilizzare poi come cassa di risonanza. Ad aprile 2024, sono 794 i siti web di notizie in 16 lingue diverse creati, in tutto o in parte, con l’ausilio dell’IA. 

Gli strumenti di intelligenza artificiale generativa oggi consentono a chiunque di creare rapidamente e facilmente enormi quantità di dati fittizi. Gli utenti possono utilizzare delle semplici app per generare contenuti sofisticati e convincenti come deepfake, cloni vocali, articoli, finte ricerche scientifiche da spingere poi sui social per manipolare l’opinione pubblica. È questa la memoria storica che stiamo costruendo oggi sul web. Ed è questa la linfa di cui si nutriranno gli algoritmi generativi di domani. Decadendo le fonti digitali storicamente più robuste – estratti enciclopedici, articoli, pubblicazioni scientifiche — l’IA farà sempre più affidamento sulle fonti da essa stessa create, in un circolo di disinformazione che potrebbe presto inghiottire l’intera Rete. Alcuni ricercatori hanno paragonato questo trend alla diffusione del morbo della “mucca pazza”. Proprio come nutrire mucche con altre mucche ha portato pian piano alla comparsa di un agente patogeno terribilmente nocivo per l’uomo, anche addestrare l’IA su enormi quantità di dati creati dalla stessa IA può avere conseguenze disastrose, dando vita a un processo di autoconsumo che si tradurrà in risultati di qualità via via inferiore e che tuttavia, mancandoci un riferimento, faremo sempre più fatica a distinguere dalla realtà.

© RIPRODUZIONE RISERVATA

Leave feedback about this

  • Quality
  • Price
  • Service
[an error occurred while processing the directive]