DE  |  FR

WARC

Informations générales

Titre Web ARChive file format
Catégorie Hypertexte
Abréviation WARC
Extension de fichier .warc
Mime Type application/warc
Pronom PUID fmt/289
Version Version actuelle: 2 (ISO-Standard 28500:2017)
Version précédente: (ISO 28500:2009)

 

Description

Le format WARC (Web ARChive) est une extension du format ARC n’amène pas de concept fondamentalement nouveau Voir à ce sujet les réflexions sur ARC. Le format est publié en tant que norme ISO 28500:2017.

Evaluation

Ouverture du format: 4
Le format a été développé par Internet Archive et la Bibliothèque nationale de France et il est disponible en tant que norme ISO 28500:2017.

Licence libre: 3
Il n’existe pas de patente connue pour WARC.

Diffusion: 3
La plupart des archives web comme Internet Archive utilisent aujourd’hui le format. La Internet Memory Foundation développe depuis 2012 un nouveau Web Archive Repository, qui doit être cependant compatible avec WARC.

Fonctionnalités: 3
Le format possède de meilleures fonctionnalités par rapport à ARC.

Implémentation: 4
L’Internet Archive Wayback Machine (« machine à remonter le temps ») peut travailler avec WARC. Différentes solutions de moissonnage (harvesting) peuvent sauvegarder dans ce format, par exemple le produit open source Heritrix.

Densité de mémorisation: 3
La densité de mémorisation est relativement élevée du fait de l’utilisation d’une compression.

Vérifiabilité: 3
L’Internet Archive Wayback Machine peut être mise à contribution pour la vérification de format.

Bonnes pratiques: 3
WARC est en ce moment le format le plus répandu pour le moissonnage de sites web.

Perspectives: 2
La perspective à long terme est floue parce qu’il semble que des problèmes d’échelle surviennent assez rapidement.

Classes de formats: B
Il s’agit d’un format bien établi.

 

Conclusion

Ni les fichiers ARC ni les fichiers WARC ne représentent une sérialisation des objets DOM constitués dans le navigateur. Pour regarder un contenu sauvegardé ARC ou WARC, un navigateur est tout aussi nécessaire qu’avant l’archivage. La quantité de formats utilisés ainsi que de langages de programmation et de scripts à interpréter n’a pas diminué. En revanche, le problème des ressources distribuées est résolu. Toutes les ressources nécessaires à un contenu web ou à un document sont rassemblées dans un fichier.

Références

ISO 28500:2017, Information and documentation — WARC file format
https://www.iso.org/standard/68004.html
WARC ISO 28500 Version 1 Latestdraft, 2008
https://archive.org/details/WARCISO28500Version1Latestdraft
WARC File Format Specifications (final draft)
http://archive-access.sourceforge.net/warc/WARC_ISO_28500_final_draft%20v018%20Zentveld%20080618.doc
Library of Congress: Sustainability of Digital Formats - WARC, Web ARChive file format
http://www.digitalpreservation.gov/formats/fdd/fdd000236.shtml

Bibliographie

Internet Memory developed a new infrastructure with the ambition to reach « Web-scale »
http://internetmemory.org/en/index.php/News/workshop_at_the_iipc_2012_general_assembly_leveraging_web_archives_research
Stephan Strodl, Peter Paul Beran, Andreas Rauber: Migrating Content in WARC Files
https://publik.tuwien.ac.at/files/PubDat_181115.pdf

Articles connexes

ARC

Catalogue des formats de données d'archivage Cfa
version 5.1, déc. 2017 - last update: georg.buechler - Wed, 20 Dec 2017 [10:51:15]