Das im Browser beim Laden einer HTML-Datei erzeugte Dokument oder DOM-Objekt kann genauso, wie es ausgedruckt werden kann, auch in eine PDF-Datei konvertiert werden. Bei der Konvertierung zu PDF werden alle eingebetteten Ressourcen in der PDF-Datei gespeichert und nach Vorgabe des Konverters in entsprechende AV-Formate konvertiert, insbesondere wenn als Zielformat PDF/A gewählt wird (dann werden zum Beispiel GIF-Bilder in JPEG oder JPEG2000 konvertiert).
Die Abbildung der Hypertext-Funktionalität wird je nach Anbieter unterschiedlich gelöst. PDF kennt Links. (Interne und externe Links sind in PDF/A erlaubt. PDF/A-1 Reader sollten Links nicht ausführen. PDF/A-2 Reader sollten interne Links ausführen, jedoch die externen nicht, da nicht gewährleistet werden kann, dass diese auch funktionieren.) Damit können die einzelnen Seiten auf gleiche Art verbunden werden. Dabei existieren zwei unterschiedliche Lösungen, wie einzelne Webseiten verbunden werden können. Der erste Ansatz erstellt pro Webseite eine PDF/A-Datei und verlinkt alle PDF/A-Dateien zu einem kompletten Webauftritt. Der zweite Ansatz speichert die Webseiten in der Reihenfolge des Crawlens nach ihrem Abruf beim Crawlen hintereinander in derselben Datei, wobei ein ganzer Webauftritt leicht die maximale Grösse einer PDF-Datei überschreiten kann (8‘388‘607 Objekte, 10GB, bei PDF/A-1 ist die maximale Grösse 2GB).
Die technischen Eigenschaften von PDF/A-2 sind im Kapitel zu den Textformaten ausführlich beschrieben. Dort steht auch ein detaillierter Vergleich mit den Versionen 1 und 3. Für die Verwendung als Archivformat für Hypertextdaten ist die Version 2 notwendig, weil erst in dieser Version die Ausführung PDF-interner Links erlaubt und die maximale Dateigrösse von 2GB aufgehoben wurde.
Hier erfolgt einzig die Kurzbewertung von PDF/A-2 für die Verwendung als Format zur Archivierung von Hypertext.
Offenheit: 4 Lizenzfreiheit: 3 Verbreitung: 3 Funktionalitaet: 2 Implementierung: 4 Speicherdichte: 2 Verifizierbarkeit: 4 Best Practice: 3 Perspektive: 4 Formatklasse: B |
PDF/A als Hypertext-Format hat auf jeden Fall die Vorteile, dass beim Abspeichern eine Konvertierung in ein bekanntes archivtaugliches Format stattfindet, dass sämtliche in HTML eingebetteten weiteren Formate ebenfalls PDF/A-konform eingebettet werden, dass die Hyperlinkfunktionalität erhalten bleibt, und dass zum Betrachten nur noch ein PDF-Reader notwendig ist (und kein Browser mit entsprechenden Plug-ins).
Zu beachten bleibt, dass der Konvertierung von HTML zu PDF immer ein bestimmter HTML Rendering Agent, also ein bestimmter Browser, zugrunde liegt. Das archivierte PDF bildet also diese Browsersicht ab und nicht die universelle Vorgabe des HTML-Dokuments. Das heisst zum Beispiel, dass die abstrakte HTML-Anweisung "Überschrift 1" in einer bestimmten Formatierung (Schriftgrösse, Schriftschnitt, Zeilenabstand) abgebildet wird.
Katalog archivischer Dateiformate | Version 7.0, Juni 2024 |