DE  |  FR

WARC

Allgemeine Informationen

TitelWeb ARChive file format
KategorieHypertext
AbkürzungWARC
Dateiendung.warc
Mime Typeapplication/warc
Pronom PUIDfmt/289
Versionaktuelle Version: 2 (ISO 28500:2017)<br />vorhergehende Version: 1 (ISO 28500:2009)

Beschreibung

Das WARC (Web ARChive) Format ist eine Erweiterung des ARC-Formates, bringt aber kein grundlegend neues Konzept. Siehe dazu die Überlegungen zu ARC. Das Format ist als ISO-Standard 28500:2017 publiziert.

Bewertung

Offenheit 4
Das Format wurde vom Internet Archive und der Bibliothèque nationale de France entwickelt und liegt heute als ISO-Standard 28500:2017 vor.

Lizenzfreiheit 3
Es existieren soweit bekannt keine Patente zu WARC.

Verbreitung 3
Die meisten Web-Archive wie etwa das Internet Archive benutzen heute das Format.

Funktionalitaet 3
Das Format besitzt gegenüber ARC eine verbesserte Funktionalität.

Implementierung 4
Die Internet Archive Wayback Machine kann mit WARC umgehen, verschiedene Harvesting-Lösungen können in diesem Format speichern, z.B. das Open-Source-Produkt Heritrix.

Speicherdichte 3
Die Speicherdichte ist durch die Verwendung einer Komprimierung relativ hoch.

Verifizierbarkeit 3
Die Internet Archive Wayback Machine kann zur Formatverifizierung herangezogen werden.

Best Practice 3
WARC ist im Moment das verbreitetste Format beim Harvesting von Webseiten.

Perspektive 2
Längerfristig ist die Perspektive unklar, weil offenbar relativ schnell Skalierungsprobleme auftreten.

Formatklasse B
Es handelt sich um ein gut eingeführtes Format.

Fazit

Weder eine ARC- noch eine WARC-Datei ist eine Serialisierung des im Browser gebildeten DOM-Objektes. Für das Betrachten eines in ARC oder WARC gespeicherten Webinhaltes ist genauso ein Browser notwendig wie vor der Archivierung. Die Menge der verwendeten Formate und zu interpretierenden Script- und Programmiersprachen ist nicht reduziert worden. Hingegen ist das Problem der verteilten Ressourcen gelöst: Alle Ressourcen, die zur Darstellung eines Webinhaltes/Dokumentes notwendig sind, werden in einer Datei zusammengefasst.

Referenz

ISO 28500:2017, Information and documentation — WARC file format
https://www.iso.org/standard/68004.html
WARC ISO 28500 Version 1 Latestdraft, 2008
https://archive.org/details/WARCISO28500Version1Latestdraft
WARC File Format Specifications (final draft)
http://archive-access.sourceforge.net/warc/WARC_ISO_28500_final_draft%20v018%20Zentveld%20080618.doc
Library of Congress: Sustainability of Digital Formats - WARC, Web ARChive file format
http://www.digitalpreservation.gov/formats/fdd/fdd000236.shtml

Literatur

Stephan Strodl, Peter Paul Beran, Andreas Rauber: Migrating Content in WARC Files
http://publik.tuwien.ac.at/files/PubDat_181115.pdf

Verbindungen

ARC

Katalog archivischer Dateiformate Version 6.2, Dezember 2021