DE  |  FR  |  IT

Recherche impossible dans le PDF

Une erreur apparue récemment a attiré notre attention sur une limite qui a toujours existé chez les documents PDF/A du niveau de conformité B (PDF/A-1b, PDF/A-2b, PDF/A-3b). Ceux-ci garantissent comme tous les documents PDF/A une restitution visuelle impeccable et inaltérable indépendamment du système. Ils ne garantissent cependant pas dans tous les cas la possibilité de rechercher et d’extraire du texte.

Une erreur dans les polices de caractères intégrées permet certes de définir les contours de chaque signe, mais pas de l’attribuer à la valeur Unicode qui lui correspond. La recherche en plein texte et l’extraction du texte reposent cependant sur cette attribution. Tous les validateurs courants font une identification correcte de ce genre de documents en les validant parce que le niveau de conformité   B ne réclame pas cette attribution. Ces documents sont inutiles pour une indexation en plein texte dans les archives.

 

Illustration 1 : analyse du fichier de police de caractère intégré

Le CECO a essayé de cerner l’ampleur du problème au moyen d’une évaluation à large échelle portant sur des documents issus de plusieurs archives membres. Cette analyse effectuée à l’aide de KOST-VAL a révélé que ce genre de documents PDF/A se retrouvent dans toutes les archives et que l’erreur ne se limite pas à certaines polices de caractères ou années de production. Elle concerne environ 20% de tous les documents testés dans le cadre de l’évaluation. Ces documents doivent être marqués dans le logiciel de gestion d’archives.

Un examen plus approfondi montre que les répercussions de l’erreur sont dans beaucoup de cas négligeables, par exemple avec les polices de symboles ou avec certains signes connus comme les espaces ou les puces d’énumération. Une configuration supplémentaire de KOST-Val permet d’ignorer cette erreur. L’évaluation du CECO ne dénombre alors plus que 1% de fichiers posant problème. Il faut alors y remédier en effectuant une nouvelle représentation. Le CECO recommande d’utiliser le niveau de conformité U, concrètement le PDF/A-2u, afin d’éviter le problème.

CECO_PPEG_PDF-Polices_Rapport_v1.pdf, 1.4M, 23.06.20
Rapport (mars 2020)

KOST_PPEG_PDF-Font_Praesentationsfolien_v1.pptx, 320.2K, 19.03.20
Présentation du rapport sur les polices de caractères dans le PDF (mars 2020, en allemand uniquement)

KOST_PPEG_PDF-Font_Praesentation_v1_pub.mp4, 17.2M, 26.03.20
Vidéo 1 à télécharger : présentation du problème (mars 2020, en allemand uniquement)

KOST_PPEG_PDF-Font_2_Assessment.mp4, 42.2M, 22.04.20
Vidéo 2 à télécharger : assessment (avril 2020, en allemand uniquement)

KOST_PPEG_PDF-Font_3_Behebung.mp4, 19.8M, 22.04.20
Vidéo 3 à télécharger : réparation (avril 2020, en allemand uniquement)

Voir également le Catalogue des formats de données d'archivage pour une analyse plus détaillée du PDF ou du PDF/A en tant que format d'archivage