
Il New York Times ha cercato di bloccare un web crawler affiliato al famoso Internet Archive, un progetto i cui facili confronti tra le versioni degli articoli hanno talvolta messo in imbarazzo il giornale.
Nel 2021, il New York Times ha aggiunto “ia_archiver” – un bot che, in passato, catturava un numero enorme di siti Web per l’Internet Archive – a un elenco che indica a determinati crawler di rimanere fuori dal suo sito Web.
I crawler sono programmi che funzionano come bot automatizzati per eseguire la scansione dei siti Web, raccogliere dati e inviarli a un repository, un processo noto come scraping. Tali robot alimentano i motori di ricerca e la Wayback Machine di Internet Archive, un servizio che facilita l’archiviazione e la visualizzazione di versioni storiche di siti Web risalenti al 1996.
Il New York Times, in passato, ha dovuto affrontare critiche pubbliche per alcune delle sue modifiche nascoste.
La Wayback Machine di Internet Archive è stata a lungo utilizzata per confrontare le pagine web man mano che vengono aggiornate nel tempo, delineando chiaramente le differenze tra due iterazioni di una determinata pagina. Diversi anni fa, l’archivio ha aggiunto una funzionalità chiamata “Modifiche” che consente agli utenti di confrontare due versioni archiviate di un sito Web con date o orari diversi su un unico display. Lo strumento può essere utilizzato per scoprire cambiamenti nelle notizie che sono state apportate senza note editoriali di accompagnamento, le cosiddette modifiche invisibili.
In passato il Times ha dovuto affrontare critiche pubbliche per alcune delle sue modifiche nascoste. In un noto incidente del 2016, il giornale ha rivisto un articolo sull’allora candidato presidenziale democratico, il senatore Bernie Sanders, I-Vt., in modo così drastico dopo la pubblicazione – cambiando il tono da elogio a scetticismo – da suscitare una serie di critiche. disprezzo da parte di altri organi di stampa e dello stesso editore pubblico del Times. Il blogger che per primo ha notato le revisioni e ha scatenato la tempesta di fuoco ha dimostrato i cambiamenti utilizzando la Wayback Machine.
Più recentemente, il Times ha modificato di nascosto un articolo che originariamente elencava la “morte” come uno dei sei modi in cui “puoi ancora cancellare il debito del tuo prestito studentesco federale”. In seguito alla modifica, il titolo della sezione “morte” è stato cambiato in un titolo più opaco “il debito non andrà avanti”.
Un servizio chiamato NewsDiffs – che fornisce un servizio comparativo simile ma si concentra su organi di informazione come il New York Times, la CNN, il Washington Post e altri – ha anche raccontato un lungo elenco di esempi significativi di articoli che hanno subito modifiche invisibili. il servizio sembra non essere stato aggiornato da diversi anni.
Il New York Times ha rifiutato di commentare il motivo per cui impedisce al bot ia_archiver di eseguire la scansione del suo sito web.
File Robots.txt
Il meccanismo utilizzato dai siti Web per bloccare determinati crawler è un file robots.txt. Se i proprietari di siti web desiderano richiedere che un particolare motore di ricerca o altro bot automatizzato non esegua la scansione del loro sito web, possono aggiungere il nome del crawler al file, che il proprietario del sito web carica poi sul proprio sito dove è possibile accedervi pubblicamente.
Basato su uno standard web noto come Robots Exclusion Protocol, un file robots.txt consente ai proprietari dei siti di specificare se desiderano consentire a un bot di eseguire la scansione di parte o dell’intero sito web. Sebbene i bot possano sempre scegliere di ignorare la presenza del file, molti servizi crawler rispettano le richieste.
L’attuale file robots.txt sul sito web del New York Times include un’istruzione per impedire l’accesso al sito al bot ia_archiver.
La relazione tra ia_archiver e Internet Archive non è del tutto semplice. Mentre l’Internet Archive esegue la scansione del Web stesso, riceve anche dati da altre entità. Ia_archiver è stato, per più di un decennio, un prolifico fornitore di dati di siti Web per l’archivio.
Il bot apparteneva ad Alexa Internet, una società di analisi del traffico web co-fondata da Brewster Kahle, che ha poi creato l’Internet Archive subito dopo Alexa. Alexa Internet è stata acquisita da Amazon nel 1999 – il suo nome commerciale è stato successivamente utilizzato per l’assistente ad attivazione vocale di Amazon – e alla fine è stata tramontata nel 2022.
Nel corso della sua esistenza, Alexa Internet è stata strettamente intrecciata con Internet Archive. Dal 1996 alla fine del 2020, Internet Archive ha ricevuto oltre 3 petabyte – più di 3.000 terabyte – di dati di siti Web sottoposti a scansione da Alexa. Il suo ruolo nel contribuire a riempire l’archivio di materiale ha portato gli utenti a sollecitare i proprietari di siti web a non bloccare ia_archiver con l’errata convinzione che non fosse correlato a Internet Archive.
Ancora nel 2015, la Wayback Machine offriva istruzioni per impedire che un sito venisse importato nella Wayback Machine, utilizzando il file robots.txt del sito. Siti web di notizie come il Washington Post hanno sfruttato appieno questa situazione e hanno disabilitato il bot ia_archiver.
Entro il 2017, tuttavia, Internet Archive ha annunciato la sua intenzione di smettere di rispettare i dettami del robots.txt di un sito. Mentre Internet Archive ignorava già il file robots.txt per i siti militari e governativi, il nuovo aggiornamento ha ampliato la tendenza a ignorare il file robots.txt per tutti i siti. I proprietari di siti web potrebbero invece effettuare richieste di esclusione manuale tramite e-mail.
Le società di gestione della reputazione, per esempio, sono profondamente consapevoli del cambiamento. Anche il New York Times sembra aver mobilitato il processo di esclusione manuale più selettivo, poiché alcune storie del Times non sono disponibili tramite la Wayback Machine.
Alcuni siti di notizie come il Washington Post hanno da allora rimosso ia_archiver dal loro elenco di crawler bloccati. Mentre altri siti Web hanno rimosso i blocchi ia_archiver, tuttavia, nel 2021, il New York Times ha deciso di aggiungerlo.
Origine: theintercept.com