DE  |  FR  |  IT

PDF nicht durchsuchbar

Ein neu aufgetauchter Fehler lenkt unsere Aufmerksamkeit auf ein schon immer bestehendes Limit von PDF/A-Dokumenten der Konformität B (PDF/A-1b, PDF/A-2b, PDF/A-3b). Diese garantieren wie alle PDF/A-Dokumente die einwandfreie, unveränderbare und systemunabhängige visuelle Wiedergabe. Sie garantieren aber nicht in jedem Fall die Durchsuchbarkeit und Extrahierbarkeit des Textes.

Ein Fehler in den eingebetteten Fonts kann dazu führen, dass zwar die Konturen der einzelnen Zeichen definiert sind, nicht aber die Zuordnungen der Zeichen zu den entsprechenden Unicode-Werten. Die Volltextsuche und die Extraktion von Text beruhen aber auf dieser Zuordnung. Alle gängigen Validatoren identifizieren solche Dokumente korrekt als valid, weil die Konformität B diese Zuordnung nicht verlangt. Für eine Volltextindizierung im Archiv sind diese Dokumente wertlos.

PDF-Fontmap

 

 

Abbildung 1: Analyse der eingebetteten Font-Datei

In einem grossangelegten Assessment mit Dokumenten aus mehreren ihrer Trägerarchive hat die KOST das Ausmass des Problems zu eruieren versucht. Das Assessment mit Hilfe von KOST-Val hat ergeben, dass solche PDF/A-Dokumente in allen Archiven vorhanden sind, und dass der Fehler nicht auf einzelne Schriftarten oder Herstellungsjahre eingeschränkt werden kann. Im Assessment waren rund 20% aller getesteten Dokumente von diesem Fehler betroffen. Diese müssen im Archivinformationssystem (AIS) gekennzeichnet werden.

Bei genauerer Betrachtung ergibt sich, dass die Auswirkungen des Fehlers in vielen Fällen vernachlässigbar sind, zum Beispiel bei Symbolschriften oder bei bestimmten, bekannten Zeichen wie Abständen oder Aufzählungszeichen. Eine zusätzliche Konfiguration von KOST-Val erlaubt es, diese Fehler zu ignorieren. Im KOST-Assessment bleibt dann 1% der Dateien problematisch. Diese müssen in einer neuen Repräsentation behoben werden. Um das Problem zu vermeiden, empfiehlt die KOST die Verwendung des Konformitätsniveaus U, konkret von PDF/A-2u.

KOST_PPEG_PDF-Font_Report_v1.pdf, 889.7K, 23.03.20
Report (März 2020)

KOST_PPEG_PDF-Font_Praesentationsfolien_v1.pptx, 320.2K, 19.03.20
Präsentation zum PDF-Font-Report (März 2020)

KOST_PPEG_PDF-Font_Praesentation_v1_pub.mp4, 17.2M, 26.03.20
Video 1: Präsentation des Problems (zum Herunterladen, März 2020)

KOST_PPEG_PDF-Font_2_Assessment.mp4, 42.2M, 22.04.20
Video 2: Assessment (zum Herunterladen, April 2020)

KOST_PPEG_PDF-Font_3_Behebung.mp4, 19.8M, 22.04.20
Video 3: Behebung (zum Herunterladen, April 2020)

Für eine detaillierte Analyse von PDF bzw. PDF/A als Archivformat siehe den Katalog archivischer Dateiformate.