DE FR IT

PDF/A-Validatoren

Die KOST-Träger wissen schon lange: Archivtaugliche Dateiformate einzufordern, ohne ihre Einhaltung zu überprüfen, ist nicht einmal die halbe Miete.

Deshalb beschränkt sich die KOST nicht darauf, ihren Katalog archivischer Dateiformate KaD laufend zu aktualisieren, sondern beschäftigt sich seit Jahren intensiv mit der Formatvalidierung. Grundsätzliche Überlegungen, wie sie in der Studie „Formaterkennung und Formatvalidierung: Theorie und Praxis“ von 2012 angestellt wurden, bilden das theoretische Fundament, das im Multi-Format-Validator KOST-Val konkretisiert wird.

Von besonderer Bedeutung ist die Validierung bei dem für die digitale Archivierung zentralen Format PDF/A. Aus diesem Grund hat die KOST bereits 2010 sieben Validatoren für PDF/A getestet und analysiert und die Resultate als Studie veröffentlicht. Nach sieben Jahren schien eine komplette Überarbeitung dieser Untersuchung angebracht. Wir freuen uns, Ihnen die neue KOST-Studie zu PDF/A-Validatoren vorstellen zu können. Sie umfasst noch fünf auf dem Markt wichtige Produkte, darunter neu den im Rahmen des PREFORMA-Projekts entwickelten Open-Source-Validator veraPDF.

Eine vollständige Analyse von PDF/A-Validatoren erfordert ein umfassendes, korrektes und möglichst unpubliziertes Testset von Dateien, die die separate Analyse sämtlicher interessierender Anforderungen erlauben. Ein solches Testset stand 2010 mit der „Bavaria-Testsuite“ zur Verfügung. Diese ist jedoch inzwischen nicht nur nicht mehr aktuell, sondern auch zu gut bekannt. Ein neues Testset zu erarbeiten, übersteigt die gegenwärtigen Möglichkeiten der KOST. Deshalb beruht die Neuauflage der PDF/A-Validatoren-Studie auf einem Validatoren-Benchmarking. Dafür wurde ein Testset von 2980 verschiedenen realen PDF-Dateien aus dem Umfeld der KOST und der nestor-Arbeitsgruppe Formaterkennung verwendet, die allen untersuchten Validatoren als Input dienten.

Die folgenden Aspekte wurden festgehalten (neben der Version, dem Tester und dem Testzeitpunkt):

  • Kosten: Preis des Produkts inklusive Wartungsvertrag für ein Jahr.
  • Geschwindigkeit: Dauer der kompletten Validierung in der Testumgebung.
  • Robustheit: Anzahl der unkontrollierten Ausgaben im Lauf der kompletten Validierung.
  • Einigkeit: In 82.58% der Fälle waren sich alle Validatoren im Juni 2017 einig, und bei lediglich 3.52% der Fälle gab es kein eindeutiges Resultat (2 gegen 2). Festgehalten wurde die Abweichung von der Mehrzahl der anderen Validatoren beim Testergebnis valid oder invalid. Angegeben wurde zusätzlich, wie sich die Abweichungen auf valide und invalide Dokumente verteilen.
  • Genauigkeit: Da sich ein automatisiertes Mapping der Fehlermeldungen als nicht realisierbar herausgestellt hat, wurde eine manuelle Qualitätskontrolle über 30 Testdateien durchgeführt, welche alle die Validierung im Juni 2017 nicht bestanden hatten. Festgehalten wurde der Prozentsatz der übereinstimmenden Fehlermeldungen.

Die Analyseergebnisse sind in der folgenden Tabelle zusammengestellt. Bitte beachten Sie, dass von veraPDF drei verschiedene Versionen getestet wurden.

Die Studie zum Download

PDFA-Validatoren_2018.04_v1.0.pdf, 173.7K, 23.04.18
PDF/A-Validatoren-Studie von 2018.04

Für eine detaillierte Analyse von PDF/A als Archivformat siehe den Katalog archivischer Dateiformate:

Vorgängerversion der Studie von 2010

PDFA-Validatoren_v2.1.pdf, 42.6K, 08.12.10
PDF/A-Validatoren-Studie von 2010