Titre | ARC_IA, Internet Archive ARC file format |
Catégorie | Hypertexte |
Abréviation | ARC |
Extension de fichier | .arc |
Mime Type | application/x-internet-archive |
Pronom PUID | x-fmt/219, fmt/410 |
Version | La désignation ARC a été utilisée dans les débuts de l’informatique pour différents formats d’archives de fichiers qui sont tous des précurseurs de TAR, PKARC et ZIP. ARC_IA désigne une variante spéciale qui a été utilisée par l’Internet Archive. |
ARC est un format de fichiers des années quatre-vingt pour sauvegarde compressée de différents fichiers dans un fichier. ARC ne pouvait à l’origine pas représenter les fichiers dans leur arborescence. L’Internet Archive a développé le format afin de pouvoir sauvegarder efficacement plusieurs ressources d’une page web.
Un fichier ARC contient la réponse HTTP complète (response) et le paquet de données (payload) transmis de toutes les pages explorées par le robot d’indexation (crawler) ainsi qu’un set de métadonnées pour le processus de crawling. Chaque bloc (HTTP response) est compressé de façon indépendante. Le fichier ARC résoud surtout le problème de la sauvegarde d’innombrables petits fichiers dont sont composés les contenus web. L’accès s’effectue au mieux par une base de données externe. Le fichier ARC ne possède pas sa propre rubrique d’indexation.
Ni HTTP response ni payload ne sont normalisés d’une quelconque manière dans le fichier ARC. Leur forme correspond exactement à ce qui a été envoyé du serveur web.
Ouverture du format: 3 Licence libre: 3 Diffusion: 2 Fonctionnalités: 2 Implémentation: 3 Densité de mémorisation: 3 Vérifiabilité: 3 Bonnes pratiques: 1 Perspectives: 1 Classe de formats: X |
En cas de nouvelle exploration par robot d’indexation ou de moissonnage, il faut choisir WARC comme format d’archivage. Il ne faut pas absolument convertir des fonds d’archives existants d’ARC en WARC parce que cette opération implique de très gros efforts en raison de leur taille. La conversion ne changerait cependant rien aux pages HTML sous-jacentes ni aux ressources intégrées.
Internet Archive: Mike Burner, Brewster Kahle « Arc File Format » September 15, 1996, Version 1.0
https://archive.org/web/researcher/ArcFileFormat.php
Library of Congress: Sustainability of Digital Formats - ARC_IA, Internet Archive ARC file format
http://www.digitalpreservation.gov/formats/fdd/fdd000235.shtml
Voir WARC.
Catalogue des formats de fichiers pour l'archivage | version 6.2, décembre 2021 |