DE FR IT

ARC

Allgemeine Informationen

Titel ARC_IA, Internet Archive ARC file format
Kategorie Hypertext
Abkürzung ARC
Dateiendung .arc
Mime Type application/x-internet-archive
Pronom PUID x-fmt/219, fmt/410
Version Die Bezeichnung ARC wurde in den Frühzeiten der Informatik für verschiedene Datei-Archivformate verwendet, die alle Vorläufer von TAR, PKARC und ZIP sind. ARC_IA bezeichnet eine spezielle Variante, die vom Internet Archive verwendet wurde.

   

Beschreibung

ARC ist ein Dateiformat aus den 80er Jahren zur komprimierten Speicherung von verschiedenen Dateien in einer Datei. ARC kann ursprünglich keine Dateien in Verzeichnisbäumen abbilden. Das Internet Archive hat das Format weiterentwickelt, um mehrere Ressourcen einer Webseite effizient speichern zu können.
Ein ARC-Datei enthält die vollständige HTTP-Antwort (Response) und den mitübermittelten Datenstrom (Payload) aller vom Crawler besuchtet Seiten zusammen mit einem Set von Metadaten zum Crawl-Vorgang. Jeder Block (HTTP Response) ist unabhängig komprimiert. Die ARC-Datei löst vor allem das Problem der Speicherung von unzähligen kleinen Dateien, aus denen sich Webinhalte zusammensetzen. Der Zugriff erfolgt am besten über eine externe Datenbank, die ARC-Datei besitzt keinen eigenen Indexteil.
Weder HTTP Response noch Payload sind in der ARC-Datei auf irgendeine Art normalisiert. Sie entsprechen in ihrer Form genau dem, was vom Webserver gesendet wird.,

       

Bewertung

Offenheit 3
Die Spezifikation von ARC_IA wird von Internet Archive verwaltet.

Lizenzfreiheit 3
Es existieren, soweit bekannt, keine Patente zu ARC_IA.

Verbreitung 2
ARC_IA ist heute durch WARC abgelöst. Es ist aber davon auszugehen, dass immer noch grosse Teile des Internet Archives auf ARC-Dateien basieren.

Funktionalitaet 2
Durch das Fehlen eines Dateiverzeichnisses ist das Format für den Verwendungszweck stark eingeschränkt.

Implementierung 3
Die Internet Archive Wayback Machine kann mit ARC_IA umgehen, verschiedene Harvesting-Lösungen können in diesem Format speichern, z.B. das Open-Source-Produkt Heritrix.

Speicherdichte 3
Die Speicherdichte ist durch die Verwendung einer Komprimierung relativ hoch.

Verifizierbarkeit 3
Die Internet Archive Wayback Machine kann zur Formatverifizierung herangezogen werden.

Best Practice 1
Das Format ist durch WARC abgelöst worden und kann damit nicht mehr empfohlen werden.

Perspektive 1
Es ist keine Perspektive absehbar.

Formatklasse X
Es handelt sich um ein veraltetes Format.

   

Fazit

Beim neuen Crawlen oder Harvesting von Webseiten sollte WARC als Archivformat gewählt werden. Bestehende Archivbestände müssen nicht unbedingt von ARC in WARC konvertiert werden. Dies wäre der Grösse wegen mit enormem Aufwand verbunden, beim Konvertieren würde aber an den zugrundeliegenden HTML-Seiten und den eingebundenen Ressourcen nichts geändert.

   

Referenz

Internet Archive: Mike Burner, Brewster Kahle "Arc File Format" September 15, 1996, Version 1.0
http://archive.org/web/researcher/ArcFileFormat.php

Library of Congress: Sustainability of Digital Formats - ARC_IA, Internet Archive ARC file format
http://www.digitalpreservation.gov/formats/fdd/fdd000235.shtml

   

Literatur

Siehe WARC

    

Katalog archivischer Dateiformate Version 7.0, Juni 2024