Titel | Office Open XML Document, Office Open XML Presentation |
Kategorie | Textformate |
Abkürzung | DOCX, PPTX |
Dateiendung | .docx, .pptx |
Mime Type | application/vnd.openxmlformats-officedocument.wordprocessingml.document; application/vnd.openxmlformats-officedocument.presentationml.presentation |
Pronom PUID | fmt/189; fmt/215; fmt/412 (strict und transitional) |
Version | aktuelle Version: ISO/IEC 29500-2:2021 [1] vorhergehende Versionen: (2015/16 / ECMA 376 5th edition und ISO/IEC 29500:2016) (2012 / ECMA 376 4th edition) (2011 / ECMA 376 3rd edition und ISO/IEC 29500:2012); (2008 / ECMA 376 2nd edition); (2006 / ECMA 376 1st edition); |
DOCX (Office Open XML Document) und PPTX (Office Open XML Presentation) sind von Microsoft entwickelte Office-Formate auf der Basis von XML. Das Ausgangsformat von DOCX und PPTX ist OOXML. OOXML ist im Standard ISO/IEC 29500:2016 spezifiziert. OOXML ist ebenfalls das Ausgangsformat für XLSX, welches separat in der Kategorie Tabellenkalkulation behandelt wird.
Bei DOCX und PPTX handelt es sich nicht um die Formate DOC und PPT. DOC und PPT werden nicht für die Archivierung empfohlen, da sie u.a. proprietäre Formate von Microsoft sind. Sie sollten daher in PDF/A-2 oder falls notwendig in DOCX und PPTX umgewandelt werden.
Auf die Vorlagen-, Makros- und Bildschirmpräsentations-Formate (.docm, .dotx, .dotm, .pptm, .potx, .potm, .ppsx und .ppsm) wird nicht eingegangen, da diese schlechter abschneiden.
Für OOXML sind sowohl ein Containerformat (ZIP) als auch XML-basierte Auszeichnungssprachen für die verschiedenen Office-Anwendungen spezifiziert. DOCX-und PPTX-Dateien sind also ZIP-Dateien mit XML-Dokumenten, die Inhalt und Struktur des Dokumentes umfassen und mit einem ZIP-Programm geöffnet werden können.
Bei beiden Formaten DOCX und PPTX müssen folgende zwei Varianten unterschieden werden: transitional und strict.Das transitional-Format ist ein Übergangsformat und baut auf dem strict-Format (Part 1 von ISO/IEC 29500) auf. Das transitional-Format verfügt gegenüber dem strict-Format über zusätzliche Features die rückwärtskompatibel mit dem DOC/PPT-Binärformat sind. Die zusätzlichen Features sind im Part 4 von ISO/IEC 29500-4 auf rund 1500 Seiten beschrieben. In Microsoft Office ist das transitional-Format das Default-Format. Wird das strict-Format gewünscht, so muss dieses explizit als Format beim Speichern gewählt werden.
Unterscheiden lassen sich die Varianten u.a. am Root Namespace. Dieser findet sich im DOCX-ZIP im Ordner word im XML-File document.xml:
Variante | WordprocessingML Root Namespace |
Transitional | http://schemas.openxmlformats.org/wordprocessingml/2006/main |
Strict | http://purl.oclc.org/ooxml/wordprocessingml/main |
Die nachfolgende Bewertung bezieht sich auf die weit verbreiteten transitional-Formate von DOCX und PPTX. Die strict-Formate von DOCX und PPTX sind archivisch tendenziell besser, jedoch wenig verbreitet. [5]
Offenheit: 4 Lizenzfreiheit: 3 Verbreitung: 4 Funktionalitaet: 1
Implementierung: 3 Speicherdichte: 3 Verifizierbarkeit: 3 Best Practice: 1 Perspektive: 2 Formatklasse: B |
Nachfolgend wird auf Funktionalitäten eingegangen, welche in der archivischen Praxis Schwierigkeiten bereiten.
Archivisch schwierig zu handhaben, ist der Umgang mit jenen Feldern in DOCX und PPTX, welche ein automatisches Update anbieten. So besteht bei DOCX die Möglichkeit, Datums -und Zeitfelder automatisch aufzudatieren, wenn das Dokument geöffnet wird. Wird daher ein Dokument mit aktiviertem, automatischem Update abgeliefert und anschliessend durch das Archiv geöffnet, so wird das Originaldatum überschrieben. Das gleiche Verhalten tritt auch beim Drucken oder Konvertieren auf. Diese automatische Aktualisierung ist archivisch unerwünscht respektive ungenügend. [13]
Es gelten dieselben Einwände wie für das Format ODT/ODP: Die Darstellungserhaltung bei Konvertierungen ist mangelhaft, da in DOCX/PPTX Schriften nicht per se eingebettet sind oder sich nicht einbetten lassen. [14] [15] Auch bei der Konvertierung von DOCX/PPTX in PDF können Veränderungen im Layout auftreten, wenn Schriften nicht eingebettet sind. Die Frage nicht-eingebetteter Farbräume spielt hingegen bei DOCX/PPTX keine Rolle. OOXML-Nutzungsformate verwenden bei nativen Graphiken etc. immer den Farbraum sRGB [16] [17]. Falls externe Bilder in DOCX/PPTX importiert/eingebettet werden, so werden auch deren Farbrauminformationen übernommen, sofern diese im Bild vorhanden sind.
Neben Bildern können auch andere Objekte (Audio, Video u.a.) direkt oder mittels Links (z.B. YouTube-Kanal) in DOCX/PPTX eingebettet werden. Der Umgang mit eingebetteten Objekten wird im KOST-Eintrag Containerformate behandelt.
Die vorhandene Schreibschutz- und vor allem die Verschlüsselungs- Option ist aus archivischer Sicht problematisch. Fehlt in letzterem Falle bei der Ablieferung das Passwort, so bedeutet dies für das Archiv Mehraufwand durch den Einsatz von Entschlüsselungssoftware oder gar den archivischen Verlust des Dokumentes.
Bei DOCX/PPTX bestehen Sicherheitslücken bei der digitalen Signatur [18] Der allgemeine archivische Umgang mit Signaturen ist schweizweit noch nicht festgelegt und wird aktuell im KOST Projekt 22.041 Digitale Signaturen ausgehandelt.
DOCX und PPTX sind ursprünglich proprietäre Textdatenformate, deren Dokumente nicht in jedem Fall eindeutig visuell reproduzierbar sind. Die korrekte Implementierung aller Funktionalitäten durch andere Produkte als diejenigen von Microsoft ist wegen der Komplexität der Spezifikation nicht garantiert. Das Format hat sich als Austauschformat im Office-Bereich etabliert.
Gegen eine Verwendung als Archivformat sprechen u.a.:
Die bedeutende Verbreitung als Produktionsformat macht jedoch ein späteres Angebot an Archive wahrscheinlich, womit z.B. das Problem der automatischen Updates von Feldern relevant werden könnte.
Standard ECMA-376, Office Open XML File Formats, 1st edition (December 2006), 2nd edition (December 2008), 3rd edition (June 2011), 4th edition (December 2012) and 5th edition (Part 3, December 2015; and Parts 1 & 4, December 2016):
https://ecma-international.org/publications-and-standards/standards/ecma-376/
Standard ISO/IEC 29500-1:2016:
https://www.iso.org/standard/71691.html
http://standards.iso.org/ittf/PubliclyAvailableStandards/index.html
Microsoft Open Specification Promise:
https://msdn.microsoft.com/en-us/openspecifications/
ISO/IEC 29500 Part 1 – 4 : Information technology — Document description and processing
languages — Office Open XML File Formats
https://standards.iso.org/ittf/PubliclyAvailableStandards/
[1] Library of Congress, «OOXML Format Family — ISO/IEC 29500 and ECMA 376», 2022
https://www.loc.gov/preservation/digital/formats/fdd/fdd000395.shtml.
[2] Microsoft, «Open XML-Formate und -Dateinamenerweiterungen», 2021
https://support.microsoft.com/de-de/office/open-xml-formate-und-dateinamenerweiterungen-5200d93c-3449-4380-8e11-31ef14555b18.
[3] Wikipedia, «Office Open XML», 2023
https://en.wikipedia.org/wiki/Office_Open_XML.
[4] ECMA, «ECMA-388», 2009
https://www.ecma-international.org/publications-and-standards/standards/ecma-388/.
[5] Library of Congress, «DOCX Strict (Office Open XML)», 2020
https://www.loc.gov/preservation/digital/formats/fdd/fdd000400.shtml.
[6] ECMA, «ECMA-376 5th edition», 2021
https://www.ecma-international.org/publications-and-standards/standards/ecma-376/.
[7] ISO/IEC, «ISO/IEC 29500», 2016
https://www.iso.org/standard/71691.html https://www.iso.org/standard/71692.html.
[8] Microsoft, «Open Specification Promise», 2023
https://learn.microsoft.com/en-us/openspecs/dev_center/ms-devcentlp/1c24c7c8-28b0-4ce1-a47d-95fe1ff504bc https://learn.microsoft.com/de-ch/openspecs/dev_center/ms-devcentlp/03347966-f8ff-4d53-a05e-63419d4132e2.
[9] Michael Bowen, «OOXML Validator», 2022
https://marketplace.visualstudio.com/items?itemName=mikeebowen.ooxml-validator-vscode&ssr=false#overview https://github.com/mikeebowen/ooxml-validator-vscode.
[10] T. Jebo, «Open XML SDK 2.5 Productivity Tool», Microsoft, 2021
https://github.com/dotnet/Open-XML-SDK/releases/tag/v2.5.
[11] ETH-Bibliothek, «File formats for archiving»,
https://documentation.library.ethz.ch/display/DD/File+formats+for+archiving.
[12] Library of Congress, «Recommended Formats Statement»,
https://www.loc.gov/preservation/resources/rfs/text.html.
[13] Staatsarchiv Bern, «Save the Data: docx im Jahre 2133», in Data Hackadays Bern 2023, Bern, 2023.
[14] Microsoft, «Some of your fonts can't be saved with the presentation», 2021
https://support.microsoft.com/en-us/office/some-of-your-fonts-can-t-be-saved-with-the-presentation-2ba26947-5d18-4eb3-b5a9-67a58629e1b8#Tab=macOS&OfficeVersion=Windows.
[15] Artefactual Systems and the Digital Preservation Coalition, «Data Types Series», Great Britain.
[16] f. A. P. S. Dov Isaacs, «Adobe Support Community», 2020
https://community.adobe.com/t5/acrobat-discussions/company-colors-used-in-word-are-changed-when-saved-as-pdf-for-print/m-p/11461351.
[17] Microsoft, «sRGB: A Standard Color Space», 2023
https://learn.microsoft.com/en-us/windows/win32/wcs/srgb--a-standard-color-space.
[18] V. M. C. M. D. H. a. J. S. Simon Rohlmann, «Every Signature is Broken: On the Insecurity of Microsoft Office’s OOXML Signatures,» in 32nd USENIX Security Symposium, Anaheim, 2023.
[19] Library of Congress, «DOCX Transitional», 2022
https://www.loc.gov/preservation/digital/formats/fdd/fdd000397.shtml.
Katalog archivischer Dateiformate | Version 7.0, Juni 2024 |