Titre | Office Open XML Document, Office Open XML Presentation |
Catégorie | Formats textuels |
Abréviation | DOCX, PPTX |
Extension de fichier | .docx, .pptx |
Mime Type | application/vnd.openxmlformats-officedocument.wordprocessingml.document ; application/vnd.openxmlformats-officedocument.presentationml.presentation |
Pronom PUID | fmt/189 ; fmt/215 ; fmt/412 (strict et transitionnel) |
Version |
Version actuelle : ISO/IEC 29500-2:2021 [1] |
DOCX (Office Open XML Document) et PPTX (Office Open XML Presentation) sont des formats de bureautique conçus par Microsoft sur la base de XML. OOXML est le format à la base de DOCX et PPTX. OOXML est spécifié dans la norme ISO/IEC 29500:2016. OOXML est également le format à la base d’XLSX, qui est traité séparément dans la catégorie des tableurs.
Les formats DOCX et PPTX ne sont pas des formats DOC et PPT. Ces derniers ne sont pas recommandés pour l'archivage, notamment parce qu’il s’agit de formats propriétaires de Microsoft. Ils doivent donc être convertis en ((PDF/A-2)) ou, si nécessaire, en DOCX et PPTX.
Les formats de modèles, de macros et de présentations d'écran (.docm, .dotx, .dotm, .pptm, .potx, .potm, .ppsx et .ppsm) ne sont pas abordés, car ils obtiennent un score plus faible.
Pour OOXML, un format conteneur (ZIP) ainsi que des langages de balisage basés sur XML sont spécifiés pour les différentes applications Office. Les fichiers DOCX et PPTX sont donc des fichiers ZIP avec des documents XML qui comprennent le contenu et la structure du document, et qui peuvent être ouverts avec un programme ZIP.
Pour les deux formats, DOCX et PPTX, il faut distinguer les deux variantes suivantes : transitionnel et strict. Le format transitionnel est un format de transition qui s'appuie sur le format strict (partie 1 de la norme ISO/IEC 29500). Par rapport au format strict, le format transitionnel dispose de caractéristiques supplémentaires qui sont rétrocompatibles avec le format binaire DOC/PPT. Les caractéristiques supplémentaires sont décrites dans la partie 4 de la norme ISO/IEC 29500-4 sur environ 1500 pages. Dans Microsoft Office, le format transitionnel est le format par défaut. Si le format strict est souhaité, il doit être explicitement sélectionné comme format lors de l'enregistrement.
Les variantes se distinguent entre autres par l’espace de nom racine (root namespace). Celui-ci se trouve dans le fichier ZIP DOCX, dans le dossier word du fichier XML document.xml :
Variante WordprocessingML Root Namespace
Transitionnel http://schemas.openxmlformats.org/wordprocessingml/2006/main
Strict http://purl.oclc.org/ooxml/wordprocessingml/main
L'évaluation qui suit se réfère aux formats transitionnels de DOCX et PPTX, qui sont largement répandus. Les formats stricts de DOCX et PPTX ont tendance à être meilleurs du point de vue archivistique, mais sont peu répandus [5].
Ouverture du format: 4 Licence libre: 3 Diffusion: 4 Fonctionnalités: 4 Implémentation: 1 Densité de mémorisation: 3 Vérifiabilité: 2 Bonnes pratiques: 1 Perspectives: 2 Classe de formats: B |
Les fonctionnalités problématiques dans la pratique archivistique sont abordées ci-après.
Les champs DOCX et PPTX qui proposent une mise à jour automatique sont difficiles à gérer du point de vue de l'archivage. Ainsi, DOCX offre la possibilité de mettre à jour automatiquement les champs de date et d'heure lors de l'ouverture du document. Si un document est livré avec la mise à jour automatique activée et qu'il est ensuite ouvert par le service d'archives, la date d'origine est écrasée. Le même phénomène se produit lors de l'impression ou de la conversion. Cette mise à jour automatique est indésirable ou insuffisante du point de vue archivistique [13].
Les mêmes objections que pour le format ((ODT/ODP)) s'appliquent : la conservation de la présentation lors des conversions est déficiente, car en DOCX/PPTX, les polices ne sont pas incorporées en soi ou ne peuvent pas l'être [14] [15]. Même lors de la conversion de DOCX/PPTX en PDF, des modifications de la mise en page peuvent survenir si les polices ne sont pas incorporées. En revanche, la question des espaces colorimétriques non incorporés ne joue aucun rôle pour DOCX/PPTX. Les formats d'utilisation OOXML utilisent toujours l'espace colorimétrique sRVB [16] [17] pour les graphiques natifs, etc. Si des images externes sont importées ou incorporées dans DOCX/PPTX, les informations relatives à leur espace colorimétrique sont également reprises, pour autant qu'elles soient disponibles dans l'image.
Outre les images, d'autres objets (audio, vidéo, etc.) peuvent être incorporés dans les DOCX/PPTX, directement ou au moyen de liens (p. ex., chaîne YouTube). Le traitement des objets incorporés est traité dans la rubrique du CECO consacrée aux formats conteneurs.
L'option de lecture seule et surtout l'option de cryptage sont problématiques du point de vue archivistique. Si, dans ce dernier cas, le mot de passe manque lors du versement, cela signifie pour le service d'archives un surcroît de travail dû à l'utilisation d'un logiciel de décryptage, voire la perte du document du point de vue archivistique.
La signature électronique des DOCX/PPTX présente des lacunes en matière de sécurité [18]. Le traitement archivistique général des signatures n'est pas encore défini à l'échelle de la Suisse et fait actuellement l'objet de négociations dans le cadre du projet du CECO 22.041 Signatures électroniques.
À l'origine, DOCX et PPTX sont à l’origine des formats de données textuelles propriétaires dont les documents ne peuvent pas être reproduits visuellement de manière précise dans tous les cas.. Les autres produits que ceux de Microsoft ne garantissent pas une implémentation correcte de toutes les fonctionnalités en raison de la complexité de la spécification. Le format s'est imposé comme format d'échange dans le domaine de la bureautique.
Les arguments contre une utilisation en tant que format d'archivage sont notamment les suivants :
Mises à jour automatiques des champs, en particulier la date.
Éléments non incorporés (p. ex. les polices de caractères), car les archives numériques ne doivent contenir que des données et non des codes de programme.
La lisibilité des objets incorporés n'est pas garantie à long terme.
La diffusion importante en tant que format de production rend toutefois probable une proposition ultérieure aux services d'archives, ce qui pourrait par exemple rendre crucial le problème des mises à jour automatiques des champs.
Norme ECMA-376, Office Open XML File Formats, 1st edition (December 2006), 2nd edition (December 2008), 3rd edition (June 2011), 4th edition (December 2012) and 5th edition (Part 3, December 2015; and Parts 1 & 4, December 2016):
https://ecma-international.org/publications-and-standards/standards/ecma-376/
Norme ISO/IEC 29500-1:2016
https://www.iso.org/standard/71691.html
http://standards.iso.org/ittf/PubliclyAvailableStandards/index.html
Microsoft Open Specification Promise :
https://msdn.microsoft.com/en-us/openspecifications
ISO/IEC 29500 Part 1 – 4 : Information technology — Document description and processing
languages — Office Open XML File Formats
https://standards.iso.org/ittf/PubliclyAvailableStandards/
[1] Library of Congress, «OOXML Format Family — ISO/IEC 29500 and ECMA 376,» 2022
https://www.loc.gov/preservation/digital/formats/fdd/fdd000395.shtml
[2] Microsoft, « Formats Open XML et extensions de noms de fichiers, » 2021 https://support.microsoft.com/fr-fr/office/formats-open-xml-et-extensions-de-noms-de-fichiers-5200d93c-3449-4380-8e11-31ef14555b18
[3] Wikipedia, « Office Open XML, » 2023
https://en.wikipedia.org/wiki/Office_Open_XML
[4] ECMA, «ECMA-388,» 2009
https://www.ecma-international.org/publications-and-standards/standards/ecma-388/
[5] Library of Congress, «DOCX Strict (Office Open XML),» 2020
https://www.loc.gov/preservation/digital/formats/fdd/fdd000400.shtml
[6] ECMA, «ECMA-376 5th edition,» 2021
https://www.ecma-international.org/publications-and-standards/standards/ecma-376/
[7] ISO/IEC, «ISO/IEC 29500,» 2016
https://www.iso.org/standard/71691.html
https://www.iso.org/standard/71692.html
[8] Microsoft, «Open Specification Promise,» 2023
https://learn.microsoft.com/en-us/openspecs/dev_center/ms-devcentlp/1c24c7c8-28b0-4ce1-a47d-95fe1ff504bc
https://learn.microsoft.com/fr-ch/openspecs/dev_center/ms-devcentlp/03347966-f8ff-4d53-a05e-63419d4132e2
[9] Michael Bowen, «OOXML Validator,» 2022
https://marketplace.visualstudio.com/items?itemName=mikeebowen.ooxml-validator-vscode&ssr=false#overview
https://github.com/mikeebowen/ooxml-validator-vscode
[10] T. Jebo, «Open XML SDK 2.5 Productivity Tool,» Microsoft, 2021
https://github.com/dotnet/Open-XML-SDK/releases/tag/v2.5
[11] ETH-Bibliothek, « File formats for archiving, »
https://documentation.library.ethz.ch/display/DD/File+formats+for+archiving
[12] Library of Congress, «Recommended Formats Statement,»
https://www.loc.gov/preservation/resources/rfs/text.html
[13] Staatsarchiv Bern, «Save the Data: docx im Jahre 2133,» in Data Hackadays Bern 2023, Bern, 2023
[14] Microsoft, « Some of your fonts can't be saved with the presentation, » 2021
https://support.microsoft.com/en-us/office/some-of-your-fonts-can-t-be-saved-with-the-presentation-2ba26947-5d18-4eb3-b5a9-67a58629e1b8#Tab=macOS& ;OfficeVersion=Windows
[15] Artefactual Systems and the Digital Preservation Coalition, «Data Types Series,» Great Britain.
[16] f. A. P. S. Dov Isaacs, «Adobe Support Community,» 2020
https://community.adobe.com/t5/acrobat-discussions/company-colors-used-in-word-are-changed-when-saved-as-pdf-for-print/m-p/11461351
[17] Microsoft, « sRGB: A Standard Color Space, » 2023
https://learn.microsoft.com/en-us/windows/win32/wcs/srgb--a-standard-color-space
[18] V. M. C. M. D. H. a. J. S. Simon Rohlmann, « Every Signature is Broken: On the Insecurity of Microsoft Office’s OOXML Signatures, » in 32nd USENIX Security Symposium, Anaheim, 2023
[19] Library of Congress, «DOCX Transitional,» 2022
https://www.loc.gov/preservation/digital/formats/fdd/fdd000397.shtml
Catalogue des formats de fichiers pour l'archivage | version 7.0, juin 2024 |