DE FR IT

DOCX, PPTX (OOXML)

Informations générales

Titre Office Open  XML Document, Office Open XML Presentation
Catégorie Formats textuels
Abréviation DOCX, PPTX
Extension de fichier .docx, .pptx
Mime Type application/vnd.openxmlformats-officedocument.wordprocessingml.document ; application/vnd.openxmlformats-officedocument.presentationml.presentation
Pronom PUID fmt/189 ; fmt/215 ; fmt/412 (strict et transitionnel)
Version

Version actuelle : ISO/IEC 29500-2:2021 [1]
Versions précédentes :
(2015/16 / ECMA 376 5th edition et ISO/IEC ; 29500:2016) ; ;
(2012 / ECMA 376 4th edition) ;
(2011 / ECMA 376 3rd edition et ISO/IEC 29500:2012) ;
(2008 / ECMA 376 2nd edition) ;
(2006 / ECMA 376 1st edition) ;

     

Description [2] [3] [4]

DOCX (Office Open XML Document) et PPTX (Office Open XML Presentation) sont des formats de bureautique conçus par Microsoft sur la base de XML. OOXML est le format à la base de DOCX et PPTX. OOXML est spécifié dans la norme ISO/IEC 29500:2016. OOXML est également le format à la base d’XLSX, qui est traité séparément dans la catégorie des tableurs.

Les formats DOCX et PPTX ne sont pas des formats DOC et PPT. Ces derniers ne sont pas recommandés pour l'archivage, notamment parce qu’il s’agit de formats propriétaires de Microsoft. Ils doivent donc être convertis en ((PDF/A-2)) ou, si nécessaire, en DOCX et PPTX.

Les formats de modèles, de macros et de présentations d'écran (.docm, .dotx, .dotm, .pptm, .potx, .potm, .ppsx et .ppsm) ne sont pas abordés, car ils obtiennent un score plus faible.

 

Contexte technique

Pour OOXML, un format conteneur (ZIP) ainsi que des langages de balisage basés sur XML sont spécifiés pour les différentes applications Office. Les fichiers DOCX et PPTX sont donc des fichiers ZIP avec des documents XML qui comprennent le contenu et la structure du document, et qui peuvent être ouverts avec un programme ZIP.

Pour les deux formats, DOCX et PPTX, il faut distinguer les deux variantes suivantes : transitionnel et strict. Le format transitionnel est un format de transition qui s'appuie sur le format strict (partie 1 de la norme ISO/IEC 29500). Par rapport au format strict, le format transitionnel dispose de caractéristiques supplémentaires qui sont rétrocompatibles avec le format binaire DOC/PPT. Les caractéristiques supplémentaires sont décrites dans la partie 4 de la norme ISO/IEC 29500-4 sur environ 1500 pages. Dans Microsoft Office, le format transitionnel est le format par défaut. Si le format strict est souhaité, il doit être explicitement sélectionné comme format lors de l'enregistrement.

Les variantes se distinguent entre autres par l’espace de nom racine (root namespace). Celui-ci se trouve dans le fichier ZIP DOCX, dans le dossier word du fichier XML document.xml :

Variante           WordprocessingML Root Namespace

Transitionnel               http://schemas.openxmlformats.org/wordprocessingml/2006/main

Strict   http://purl.oclc.org/ooxml/wordprocessingml/main

L'évaluation qui suit se réfère aux formats transitionnels de DOCX et PPTX, qui sont largement répandus. Les formats stricts de DOCX et PPTX ont tendance à être meilleurs du point de vue archivistique, mais sont peu répandus [5].

   

Evaluation

Ouverture du format: 4
OOXML est disponible publiquement; c'est une norme Ecma International (Ecma-376) depuis 2006 ainsi qu'une norme ISO/IEC (actuellement ISO/IEC 29500-1:2016) publiée depuis 2012. L’algorithme de compression ZIP est également ouvert et libre d’accès (http://www.info-zip.org/).

Licence libre: 3
Office Open XML est disponible gratuitement et peut être copié. Le format contient cependant des brevets qui sont mis en circulation uniquement pour la version actuelle. Les polices utilisées ne font pas l’objet d’une licence libre, ce qui pourra causer des problèmes de droits lors de l’utilisation future des polices ainsi protégées.

Diffusion: 4
Comme c'est un format de fichiers de MS Office, OOXML est très répandu.

Fonctionnalités: 4
COOXML peut représenter toutes les propriétés significatives de documents textuels. Les mêmes objections que celles relatives au format ODF sont cependant formulées pour le format OOXML: la préservation de la présentation lors de conversions est médiocre, car les polices et les espaces de couleurs ne sont pas encapsulés dans OOXML. L'option de protection en écriture disponible pose des problèmes du point de vue archivistique

Implémentation: 1
Outre l'implémentation d'origine dans MS Office, il existe d'autres implémentations indépendantes qui sont toutefois vraisemblablement incomplètes.

Densité de mémorisation: 3
L’utilisation de la compression ZIP permet d’atteindre une densité de mémorisation relativement élevée.

Vérifiabilité: 2
La reconnaissance est possible uniquement au moyen de l'extension. Il n'existe aucun validateur spécial.

Bonnes pratiques: 1
Ce format continue d'être considéré dans le monde de l'archivage comme un format de travail et non comme un format d'archivage.

Perspectives: 2
En raison de la large diffusion du format dans les administrations et pour éviter des migrations, il est envisageable de l'utiliser comme format d'archivage.

Classe de formats: B
Le format est utilisé dans les versions actuelles de MS Office.

          

Analyse

Les fonctionnalités problématiques dans la pratique archivistique sont abordées ci-après.

Champs

Les champs DOCX et PPTX qui proposent une mise à jour automatique sont difficiles à gérer du point de vue de l'archivage. Ainsi, DOCX offre la possibilité de mettre à jour automatiquement les champs de date et d'heure lors de l'ouverture du document. Si un document est livré avec la mise à jour automatique activée et qu'il est ensuite ouvert par le service d'archives, la date d'origine est écrasée. Le même phénomène se produit lors de l'impression ou de la conversion. Cette mise à jour automatique est indésirable ou insuffisante du point de vue archivistique [13].

Incorporation

Les mêmes objections que pour le format ((ODT/ODP)) s'appliquent : la conservation de la présentation lors des conversions est déficiente, car en DOCX/PPTX, les polices ne sont pas incorporées en soi ou ne peuvent pas l'être [14] [15]. Même lors de la conversion de DOCX/PPTX en PDF, des modifications de la mise en page peuvent survenir si les polices ne sont pas incorporées. En revanche, la question des espaces colorimétriques non incorporés ne joue aucun rôle pour DOCX/PPTX. Les formats d'utilisation OOXML utilisent toujours l'espace colorimétrique sRVB [16] [17] pour les graphiques natifs, etc. Si des images externes sont importées ou incorporées dans DOCX/PPTX, les informations relatives à leur espace colorimétrique sont également reprises, pour autant qu'elles soient disponibles dans l'image.

Outre les images, d'autres objets (audio, vidéo, etc.) peuvent être incorporés dans les DOCX/PPTX, directement ou au moyen de liens (p. ex., chaîne YouTube). Le traitement des objets incorporés est traité dans la rubrique du CECO consacrée aux formats conteneurs.

Cryptage

L'option de lecture seule et surtout l'option de cryptage sont problématiques du point de vue archivistique. Si, dans ce dernier cas, le mot de passe manque lors du versement, cela signifie pour le service d'archives un surcroît de travail dû à l'utilisation d'un logiciel de décryptage, voire la perte du document du point de vue archivistique.

Signature électronique

La signature électronique des DOCX/PPTX présente des lacunes en matière de sécurité [18]. Le traitement archivistique général des signatures n'est pas encore défini à l'échelle de la Suisse et fait actuellement l'objet de négociations dans le cadre du projet du CECO 22.041 Signatures électroniques.

   

Conclusion

À l'origine, DOCX et PPTX sont à l’origine des formats de données textuelles propriétaires dont les documents ne peuvent pas être reproduits visuellement de manière précise dans tous les cas.. Les autres produits que ceux de Microsoft ne garantissent pas une implémentation correcte de toutes les fonctionnalités en raison de la complexité de la spécification. Le format s'est imposé comme format d'échange dans le domaine de la bureautique.

Les arguments contre une utilisation en tant que format d'archivage sont notamment les suivants :

Mises à jour automatiques des champs, en particulier la date.

Éléments non incorporés (p. ex. les polices de caractères), car les archives numériques ne doivent contenir que des données et non des codes de programme.

La lisibilité des objets incorporés n'est pas garantie à long terme.

La diffusion importante en tant que format de production rend toutefois probable une proposition ultérieure aux services d'archives, ce qui pourrait par exemple rendre crucial le problème des mises à jour automatiques des champs.

   

Références

Norme ECMA-376, Office Open XML File Formats, 1st edition (December 2006), 2nd edition (December 2008), 3rd edition (June 2011), 4th edition (December 2012) and 5th edition (Part 3, December 2015; and Parts 1 & 4, December 2016):
https://ecma-international.org/publications-and-standards/standards/ecma-376/

Norme ISO/IEC 29500-1:2016
https://www.iso.org/standard/71691.html
http://standards.iso.org/ittf/PubliclyAvailableStandards/index.html

Microsoft Open Specification Promise :
https://msdn.microsoft.com/en-us/openspecifications

ISO/IEC 29500 Part 1 – 4 : Information technology — Document description and processing
languages — Office Open XML File Formats
https://standards.iso.org/ittf/PubliclyAvailableStandards/

   

Bibliographie

[1]         Library of Congress, «OOXML Format Family — ISO/IEC 29500 and ECMA 376,» 2022
https://www.loc.gov/preservation/digital/formats/fdd/fdd000395.shtml

[2]         Microsoft, « Formats Open XML et extensions de noms de fichiers, » 2021 https://support.microsoft.com/fr-fr/office/formats-open-xml-et-extensions-de-noms-de-fichiers-5200d93c-3449-4380-8e11-31ef14555b18

[3]         Wikipedia, « Office Open XML, » 2023
https://en.wikipedia.org/wiki/Office_Open_XML

[4]         ECMA, «ECMA-388,» 2009
https://www.ecma-international.org/publications-and-standards/standards/ecma-388/

[5]         Library of Congress, «DOCX Strict (Office Open XML),» 2020
https://www.loc.gov/preservation/digital/formats/fdd/fdd000400.shtml

[6]         ECMA, «ECMA-376 5th edition,» 2021
https://www.ecma-international.org/publications-and-standards/standards/ecma-376/

[7]         ISO/IEC, «ISO/IEC 29500,» 2016
https://www.iso.org/standard/71691.html
https://www.iso.org/standard/71692.html

[8]         Microsoft, «Open Specification Promise,» 2023
https://learn.microsoft.com/en-us/openspecs/dev_center/ms-devcentlp/1c24c7c8-28b0-4ce1-a47d-95fe1ff504bc
https://learn.microsoft.com/fr-ch/openspecs/dev_center/ms-devcentlp/03347966-f8ff-4d53-a05e-63419d4132e2

[9]         Michael Bowen, «OOXML Validator,» 2022
https://marketplace.visualstudio.com/items?itemName=mikeebowen.ooxml-validator-vscode&ssr=false#overview
https://github.com/mikeebowen/ooxml-validator-vscode

[10]      T. Jebo, «Open XML SDK 2.5 Productivity Tool,» Microsoft, 2021
https://github.com/dotnet/Open-XML-SDK/releases/tag/v2.5

[11]      ETH-Bibliothek, « File formats for archiving, »
https://documentation.library.ethz.ch/display/DD/File+formats+for+archiving

[12]      Library of Congress, «Recommended Formats Statement,»
https://www.loc.gov/preservation/resources/rfs/text.html

[13]      Staatsarchiv Bern, «Save the Data: docx im Jahre 2133,» in Data Hackadays Bern 2023, Bern, 2023

[14]      Microsoft, « Some of your fonts can't be saved with the presentation, » 2021
https://support.microsoft.com/en-us/office/some-of-your-fonts-can-t-be-saved-with-the-presentation-2ba26947-5d18-4eb3-b5a9-67a58629e1b8#Tab=macOS&amp ;OfficeVersion=Windows

[15]      Artefactual Systems and the Digital Preservation Coalition, «Data Types Series,» Great Britain.

[16]      f. A. P. S. Dov Isaacs, «Adobe Support Community,» 2020
https://community.adobe.com/t5/acrobat-discussions/company-colors-used-in-word-are-changed-when-saved-as-pdf-for-print/m-p/11461351

[17]      Microsoft, « sRGB: A Standard Color Space, » 2023
https://learn.microsoft.com/en-us/windows/win32/wcs/srgb--a-standard-color-space

[18]      V. M. C. M. D. H. a. J. S. Simon Rohlmann, « Every Signature is Broken: On the Insecurity of Microsoft Office’s OOXML Signatures, » in 32nd USENIX Security Symposium, Anaheim, 2023

[19]      Library of Congress, «DOCX Transitional,» 2022
https://www.loc.gov/preservation/digital/formats/fdd/fdd000397.shtml

         

Catalogue des formats de fichiers pour l'archivage version 7.0, juin 2024