DE  |  FR

WARC

Allgemeine Informationen

Titel Web ARChive file format
Kategorie Hypertext
Abkürzung WARC
Dateiendung .warc
Mime Type application/warc
Pronom PUID fmt/289
Version aktuelle Version: 2 (ISO 28500:2017)
vorhergehende Version: 1 (ISO 28500:2009)

 

Beschreibung

Das WARC (Web ARChive) Format ist eine Erweiterung des ARC-Formates, bringt aber kein grundlegend neues Konzept. Siehe dazu die Überlegungen zu ARC. Das Format ist als ISO-Standard 28500:2017 publiziert.

Bewertung

Offenheit 4
Das Format wurde vom Internet Archive und der Bibliothèque nationale de France entwickelt und liegt heute als ISO-Standard 28500:2017 vor.

Lizenzfreiheit 3
Es existieren soweit bekannt keine Patente zu WARC.

Verbreitung 3
Die meisten Web-Archive wie etwa das Internet Archive benutzen heute das Format. Die Internet Memory Foundation entwickelt seit 2012 ein neues Web Archive Repository, das aber funktional kompatibel zu WARC sein soll.

Funktionalität 3
Das Format besitzt gegenüber ARC eine verbesserte Funktionalität.

Implementierung 4
Die Internet Archive Wayback Machine kann mit WARC umgehen, verschiedene Harvesting-Lösungen können in diesem Format speichern, z.B. das Open-Source-Produkt Heritrix.

Speicherdichte 3
Die Speicherdichte ist durch die Verwendung einer Komprimierung relativ hoch.

Verifizierbarkeit 3
Die Internet Archive Wayback Machine kann zur Formatverifizierung herangezogen werden.

Best Practice 3
WARC ist im Moment das verbreitetste Format beim Harvesting von Webseiten.

Perspektive 2
Längerfristig ist die Perspektive unklar, weil offenbar relativ schnell Skalierungsprobleme auftreten.

Formatklasse B
Es handelt sich um ein gut eingeführtes Format.

 

Fazit

Weder eine ARC- noch eine WARC-Datei ist eine Serialisierung des im Browser gebildeten DOM-Objektes. Für das Betrachten eines in ARC oder WARC gespeicherten Webinhaltes ist genauso ein Browser notwendig wie vor der Archivierung. Die Menge der verwendeten Formate und zu interpretierenden Script- und Programmiersprachen ist nicht reduziert worden. Hingegen ist das Problem der verteilten Ressourcen gelöst: Alle Ressourcen, die zur Darstellung eines Webinhaltes/Dokumentes notwendig sind, werden in einer Datei zusammengefasst.

Referenz

ISO 28500:2017, Information and documentation — WARC file format
https://www.iso.org/standard/68004.html
WARC ISO 28500 Version 1 Latestdraft, 2008
https://archive.org/details/WARCISO28500Version1Latestdraft
WARC File Format Specifications (final draft)
http://archive-access.sourceforge.net/warc/WARC_ISO_28500_final_draft%20v018%20Zentveld%20080618.doc
Library of Congress: Sustainability of Digital Formats - WARC, Web ARChive file format
http://www.digitalpreservation.gov/formats/fdd/fdd000236.shtml

Literatur

Internet Memory developed a new infrastructure with the ambition to reach “Web-scale”
http://internetmemory.org/en/index.php/News/workshop_at_the_iipc_2012_general_assembly_leveraging_web_archives_research
Stephan Strodl, Peter Paul Beran, Andreas Rauber: Migrating Content in WARC Files
http://publik.tuwien.ac.at/files/PubDat_181115.pdf

Verbindungen

ARC

KaD Version 5.1, Dez. 2017 - last update: georg.buechler - Wed, 06 Dec 2017 [15:46:23]