DE FR IT

ARC

La version française (6.2) n'est plus à jour. Elle date de décembre 2021.

Informations générales

 

Titre ARC_IA, Internet Archive ARC file format
Catégorie Hypertexte
Abréviation ARC
Extension de fichier .arc
Mime Type application/x-internet-archive
Pronom PUID x-fmt/219, fmt/410
Version La désignation ARC a été utilisée dans les débuts de l’informatique pour différents formats d’archives de fichiers qui sont tous des précurseurs de TAR, PKARC et ZIP. ARC_IA désigne une variante spéciale qui a été utilisée par l’Internet Archive.

Description

ARC est un format de fichiers des années quatre-vingt pour sauvegarde compressée de différents fichiers dans un fichier. ARC ne pouvait à l’origine pas représenter les fichiers dans leur arborescence. L’Internet Archive a développé le format afin de pouvoir sauvegarder efficacement plusieurs ressources d’une page web.
Un fichier ARC contient la réponse HTTP complète (response) et le paquet de données (payload) transmis de toutes les pages explorées par le robot d’indexation (crawler) ainsi qu’un set de métadonnées pour le processus de crawling. Chaque bloc (HTTP response) est compressé de façon indépendante. Le fichier ARC résoud surtout le problème de la sauvegarde d’innombrables petits fichiers dont sont composés les contenus web. L’accès s’effectue au mieux par une base de données externe. Le fichier ARC ne possède pas sa propre rubrique d’indexation.
Ni HTTP response ni payload ne sont normalisés d’une quelconque manière dans le fichier ARC. Leur forme correspond exactement à ce qui a été envoyé du serveur web.

Evaluation

 

Ouverture du format: 3
La spécification de ARC_IA est administrée par l’Internet Archive.

Licence libre: 3
Il n’existe pas de patente connue pour ARC_IA.

Diffusion: 2
WARC a aujourd’hui pris la relève d’ARC_IA. Il faut cependant assumer que de grandes parties de l’Internet Archives sont encore basées sur des fichiers ARC.

Fonctionnalités: 2
L’usage du format est fortement limité par l’absence de répertoire de fichiers.

Implémentation: 3
L’Internet Archive Wayback Machine (« machine à remonter le temps ») peut travailler avec ARC_IA. Différentes solutions de moissonnage (harvesting) peuvent sauvegarder dans ce format, par exemple le produit open source Heritrix.

Densité de mémorisation: 3
La densité de mémorisation est relativement élevée du fait de l’utilisation d’une compression.

Vérifiabilité: 3
L’Internet Archive Wayback Machine peut être mise à contribution pour la vérification de format.

Bonnes pratiques: 1
WARC a pris la relève du format et il ne peut donc plus être recommandé.

Perspectives: 1
Aucune perspective n’est en vue.

Classe de formats: X
Il s’agit d’un format obsolète.

 

 

Conclusion

En cas de nouvelle exploration par robot d’indexation ou de moissonnage, il faut choisir WARC comme format d’archivage. Il ne faut pas absolument convertir des fonds d’archives existants d’ARC en WARC parce que cette opération implique de très gros efforts en raison de leur taille. La conversion ne changerait cependant rien aux pages HTML sous-jacentes ni aux ressources intégrées.

Références

Internet Archive: Mike Burner, Brewster Kahle « Arc File Format » September 15, 1996, Version 1.0
https://archive.org/web/researcher/ArcFileFormat.php
Library of Congress: Sustainability of Digital Formats - ARC_IA, Internet Archive ARC file format
http://www.digitalpreservation.gov/formats/fdd/fdd000235.shtml

Bibliographie

Voir WARC.

Articles connexes

WARC

Catalogue des formats de fichiers pour l'archivage version 6.2, décembre 2021