On peut convertir en fichier PDF un document ou un objet DOM généré dans le navigateur lors du chargement d’un fichier HTML, exactement de la même manière qu’on peut l’imprimer. Lors de la conversion en PDF, toutes les ressources incorporées sont sauvegardées dans le fichier PDF et converties dans les formats audiovisuels correspondants selon les spécifications du convertisseur, particulièrement si on choisit comme format cible le PDF/A (par exemple, les images GIF seront converties en JPEG ou JPEG2000).
Chaque fournisseur résout la représentation des fonctionnalités hypertextes différemment. Le PDF utilise des liens (le PDF/A autorise des liens internes ou externes; les lecteurs PDF/A-1 ne sont pas censés exécuter des liens; les lecteurs PDF/A-2 devraient exécuter des liens internes, mais pas les liens externes, leur fonctionnement n’étant pas garanti). Ainsi chaque page peut être reliée de la même manière. Il existe deux solutions différentes permettant de relier des pages web. La première approche établit un fichier PDF/A par page web et relie tous les fichiers PDF/A à un site internet complet. La deuxième approche consiste à sauvegarder dans le même fichier les pages web les unes derrière les autres dans l’ordre de l’exploration faite par le robot d’indexation. Ce faisant, un site web entier peut facilement dépasser la taille maximale d’un fichier PDF (8‘388‘607 objets, 10 Go; pour le PDF/A-1 la taille maximale est de 2 Go).
Les propriétés techniques du PDF/A-2 sont décrites en détail dans le chapitre sur les données textuelles. À cet endroit se trouve également une comparaison détaillée avec les versions 1 et 3. Il est nécessaire d’utiliser la version 2 comme format d’archivage parce que seule cette version autorise l’exécution de liens PDF internes et que la taille maximale des fichiers a été élevée à 2 Go.
Ci-après figure uniquement une brève évaluation du PDF/A-2 lorsqu’il est utilisé en tant que format d’archivage pour hypertexte.
Ouverture du format: 4 Licence libre: 3 Diffusion: 3 Fonctionnalités: 2 Implémentation: 4 Densité de mémorisation: 2 Vérifiabilité: 4 Bonnes pratiques: 3 Perspectives: 4 Classe de formats: B |
PDF/A en tant que format hypertexte présente dans tous les cas les avantages suivants: lors de la sauvegarde, la compression a lieu dans un format connu adapté pour l’archivage; tous les autres formats incorporés dans le HTML sont également incorporés de manière conforme au PDF/A; la fonctionnalité des hyperliens est conservée; il suffit d’un lecteur PDF pour regarder le fichier et il n’y a pas besoin de navigateur avec les modules d’extension (plug in) correspondants.
Il reste à tenir compte du fait qu’à la base de toute conversion de HTML en PDF se trouve un moteur de rendu HTML particulier donc un navigateur particulier. Le PDF archivé représente donc la vision du navigateur et pas la spécification universelle du document HTML. Cela signifie par exemple que l’élément de texte HTML abstrait « Titre 1 » sera représenté avec un certain formatage (corps, fonte de caractères et interligne).
Catalogue des formats de fichiers pour l'archivage | version 6.2, décembre 2021 |