Titel | ARC_IA, Internet Archive ARC file format |
Kategorie | Hypertext |
Abkürzung | ARC |
Dateiendung | .arc |
Mime Type | application/x-internet-archive |
Pronom PUID | x-fmt/219, fmt/410 |
Version | Die Bezeichnung ARC wurde in den Frühzeiten der Informatik für verschiedene Datei-Archivformate verwendet, die alle Vorläufer von TAR, PKARC und ZIP sind. ARC_IA bezeichnet eine spezielle Variante, die vom Internet Archive verwendet wurde. |
ARC ist ein Dateiformat aus den 80er Jahren zur komprimierten Speicherung von verschiedenen Dateien in einer Datei. ARC kann ursprünglich keine Dateien in Verzeichnisbäumen abbilden. Das Internet Archive hat das Format weiterentwickelt, um mehrere Ressourcen einer Webseite effizient speichern zu können.
Ein ARC-Datei enthält die vollständige HTTP-Antwort (Response) und den mitübermittelten Datenstrom (Payload) aller vom Crawler besuchtet Seiten zusammen mit einem Set von Metadaten zum Crawl-Vorgang. Jeder Block (HTTP Response) ist unabhängig komprimiert. Die ARC-Datei löst vor allem das Problem der Speicherung von unzähligen kleinen Dateien, aus denen sich Webinhalte zusammensetzen. Der Zugriff erfolgt am besten über eine externe Datenbank, die ARC-Datei besitzt keinen eigenen Indexteil.
Weder HTTP Response noch Payload sind in der ARC-Datei auf irgendeine Art normalisiert. Sie entsprechen in ihrer Form genau dem, was vom Webserver gesendet wird.,
Offenheit 3 Lizenzfreiheit 3 Verbreitung 2 Funktionalitaet 2 Implementierung 3 Speicherdichte 3 Verifizierbarkeit 3 Best Practice 1 Perspektive 1 Formatklasse X |
Beim neuen Crawlen oder Harvesting von Webseiten sollte WARC als Archivformat gewählt werden. Bestehende Archivbestände müssen nicht unbedingt von ARC in WARC konvertiert werden. Dies wäre der Grösse wegen mit enormem Aufwand verbunden, beim Konvertieren würde aber an den zugrundeliegenden HTML-Seiten und den eingebundenen Ressourcen nichts geändert.
Internet Archive: Mike Burner, Brewster Kahle "Arc File Format" September 15, 1996, Version 1.0
http://archive.org/web/researcher/ArcFileFormat.php
Library of Congress: Sustainability of Digital Formats - ARC_IA, Internet Archive ARC file format
http://www.digitalpreservation.gov/formats/fdd/fdd000235.shtml
Siehe WARC
Katalog archivischer Dateiformate | Version 7.0, Juni 2024 |