L'ipertesto si riferisce a un insieme di testi collegati tra loro da link. Il layout dei testi e i collegamenti sono creati con un linguaggio di markup. Il linguaggio di markup ipertestuale più noto è l'HTML. Questo fa del World Wide Web il più grande ipertesto. Questo è a sua volta suddiviso in sotto-aree tematiche/contenutistiche, che chiamiamo siti web o presenza su Internet e che sono caratterizzate da un dominio comune, fino ad arrivare al singolo sito web o pagina web, che a rigore è anch'esso un ipertesto perché consiste in una pagina HTML e in una serie di risorse web di riferimento.
L'archiviazione presenta tre problemi:
In primo luogo, l'ipertesto è strutturato in forma di rete. Se cerchiamo di rappresentare le singole pagine web nel solito modo lineare o gerarchico, perdiamo un importante aspetto semantico. Dobbiamo quindi archiviare le pagine e i link insieme. La rete di collegamenti non è disponibile all'esterno, come ad esempio in un sistema organizzativo, ma è creata in modo implicito da tutti i collegamenti in tutte le pagine e viene determinata durante la ricerca per indicizzazione delle pagine web (crawling).
In secondo luogo, un sito web viene creato solo attraverso l'interazione di una pagina HTML e di un insieme di risorse web nel browser e non è completamente disponibile come file sorgente. Per questo motivo, per archiviare siti web o intere presenze su Internet si utilizzano software che simulano la visualizzazione del browser, oppure si compilano come file tutte le risorse necessarie per la visualizzazione nel browser.
In terzo luogo, se seguiamo la distinzione tra informazioni sull'oggetto e informazioni sulla rappresentazione in OAIS, è difficile dire dove si trova l'oggetto, perché gli attuali sistemi di gestione dei contenuti (CMS) in genere non memorizzano più le pagine HTML vere e proprie da nessuna parte, ma si limitano ad assemblarle da un insieme di dati quando viene fatta una richiesta. È altrettanto difficile con le informazioni di rappresentazione: nel CMS, abbiamo un primo livello in cui una pagina viene creata da oggetti informativi. In una seconda fase, il server web completa questa pagina al momento della consegna, il browser carica ulteriori risorse dal server web come terza fase di rappresentazione e poi esegue JavaScript incorporato, che può caricare nuovamente le risorse e porta la pagina nella forma effettiva che viene poi visualizzata.
La mancanza di una gerarchia pone inoltre un problema importante per la valutazione. È possibile valutare solo i siti web singolarmente o i siti web nel loro complesso.
I numerosi formati incorporati possibili e la difficoltà di migrazione sono a sfavore di WARC, il formato consolidato per l'archiviazione web. Per l'archiviazione di un intero sito web, la conversione in PDF/A è consigliata a lungo termine. Le singole pagine web possono essere convertite in PDF, con il collegamento realizzato attraverso la struttura di archiviazione del file, oppure un intero sito web viene salvato come file PDF/A-2 e i collegamenti ipertestuali si riferiscono da pagina PDF a pagina PDF.
HTML o HTML5 possono essere raccomandati solo come formato di archivio per le pagine senza risorse esterne incorporate, in sostituzione del testo normale, con l'ulteriore possibilità di mantenere la struttura e il layout del testo. Nel catalogo, i formati HTML appartengono quindi più ai formati di testo strutturato.
Studio sull'archiviazione web (in tedesco)
Nestor Handbuch: Kapitel 17.9, Web-Archivierung zur Langzeiterhaltung von Internet-Dokumenten
nestor.sub.uni-goettingen.de/handbuch/artikel/nestor_handbuch_artikel_293.pdf
Catalogo dei formati dei file d'archivio | versione 7.0, giugno 2024 |