DE FR IT

DOCX, PPTX (OOXML)

Allgemeine Informationen

Titel Office Open XML Document, Office Open XML Presentation
Kategorie Textformate
Abkürzung DOCX, PPTX
Dateiendung .docx, .pptx
Mime Type application/vnd.openxmlformats-officedocument.wordprocessingml.document; application/vnd.openxmlformats-officedocument.presentationml.presentation
Pronom PUID fmt/189; fmt/215; fmt/412 (strict und transitional)
Version aktuelle Version: ISO/IEC 29500-2:2021 [1]
vorhergehende Versionen:
(2015/16 / ECMA 376 5th edition und ISO/IEC 29500:2016)
(2012 / ECMA 376 4th edition)
(2011 / ECMA 376 3rd edition und ISO/IEC 29500:2012);
(2008 / ECMA 376 2nd edition);
(2006 / ECMA 376 1st edition);

   

Beschreibung [2] [3] [4]

DOCX (Office Open XML Document) und PPTX (Office Open XML Presentation) sind von Microsoft entwickelte Office-Formate auf der Basis von XML. Das Ausgangsformat von DOCX und PPTX ist OOXML. OOXML ist im Standard ISO/IEC 29500:2016 spezifiziert. OOXML ist ebenfalls das Ausgangsformat für XLSX, welches separat in der Kategorie Tabellenkalkulation behandelt wird.

Bei DOCX und PPTX handelt es sich nicht um die Formate DOC und PPT. DOC und PPT werden nicht für die Archivierung empfohlen, da sie u.a. proprietäre Formate von Microsoft sind. Sie sollten daher in PDF/A-2 oder falls notwendig in DOCX und PPTX umgewandelt werden.

Auf die Vorlagen-, Makros- und Bildschirmpräsentations-Formate (.docm, .dotx, .dotm, .pptm, .potx, .potm, .ppsx und .ppsm) wird nicht eingegangen, da diese schlechter abschneiden.

   

Technischer Hintergrund

Für OOXML sind sowohl ein Containerformat (ZIP) als auch XML-basierte Auszeichnungssprachen für die verschiedenen Office-Anwendungen spezifiziert. DOCX-und PPTX-Dateien sind also ZIP-Dateien mit XML-Dokumenten, die Inhalt und Struktur des Dokumentes umfassen und mit einem ZIP-Programm geöffnet werden können.

Bei beiden Formaten DOCX und PPTX müssen folgende zwei Varianten unterschieden werden: transitional und strict.Das transitional-Format ist ein Übergangsformat und baut auf dem strict-Format (Part 1 von ISO/IEC 29500) auf. Das transitional-Format verfügt gegenüber dem strict-Format über zusätzliche Features die rückwärtskompatibel mit dem DOC/PPT-Binärformat sind. Die zusätzlichen Features sind im Part 4 von ISO/IEC 29500-4 auf rund 1500 Seiten beschrieben. In Microsoft Office ist das transitional-Format das Default-Format. Wird das strict-Format gewünscht, so muss dieses explizit als Format beim Speichern gewählt werden.

Unterscheiden lassen sich die Varianten u.a. am Root Namespace. Dieser findet sich im DOCX-ZIP im Ordner word im XML-File document.xml:

Variante WordprocessingML Root Namespace
Transitional http://schemas.openxmlformats.org/wordprocessingml/2006/main
Strict http://purl.oclc.org/ooxml/wordprocessingml/main

 
Die nachfolgende Bewertung bezieht sich auf die weit verbreiteten transitional-Formate von DOCX und PPTX. Die strict-Formate von DOCX und PPTX sind archivisch tendenziell besser, jedoch wenig verbreitet. [5]

   

Bewertung

Offenheit: 4
OOXML ist offen publiziert und seit 2006 ein Ecma International Standard (Ecma-376) [6] sowie seit 2012 ein publizierter ISO/IEC-Standard (aktuell ISO/IEC 29500-1:2016) [7]. Der ZIP-Komprimierungsalgorithmus ist ebenfalls offengelegt und frei zugänglich (http://www.info-zip.org/).

Lizenzfreiheit: 3
OOXML ist frei verfügbar und kopierbar gemäss dem Open Specification Promise von Microsoft. [8] Die verwendeten Schriften fallen nicht unter die Lizenzfreigabe, was bei der späteren Verwendung zu Problemen mit den Rechten bei den geschützten Schriften führen könnte. Ebenso können eingebettete Formate mit Lizenzen behaftet sein (z.B. Kompressionsalgorithmen).

Verbreitung: 4
Als Dateiformat von MS Office ist DOCX und PPTX im transitional-Format sehr weit verbreitet. Als strict-Format sind beide wenig verbreitet.

Funktionalitaet: 1
DOCX und PPTX können zwar alle vorstellbaren signifikanten Eigenschaften von Textdokumenten repräsentieren, aber die für die Archivierung zentrale signifikante Eigenschaft bei Textdokumenten ist nicht abgedeckt. Wie in den Abschnitten 3.3-3.5 dargelegt wird, sind bezüglich Konvertierung und Funktionalitätserhaltung folgende Punkte problematisch (geordnet nach archivischer Relevanz):

  1. Automatisches Update: von (Datums-)feldern beim Öffnen oder Drucken.
  2. Einbettung: kann bei Schriften fehlen. Die Einbettung von nicht-langzeitarchivtauglichen Formaten ist ebenfalls möglich.
  3. Verschlüsselung und Schreibschutz
  4. Digitale Signaturen: mangelhafte Implementation und Verlust bei Konvertierung in ein Archivformat.

Implementierung: 3
Neben der nativen Implementierung in MS Office existieren weitere unabhängige, jedoch vermutlich nicht vollständige Implementierungen (u.a. OpenOffice, Libre Office).

Speicherdichte: 3
Durch den Einsatz von ZIP-Komprimierung wird eine relativ hohe Speicherdichte erreicht.

Verifizierbarkeit: 3
Die Erkennung war bis 2022 nur durch die Extension möglich. Spezielle, von Microsoft entwickelte Validatoren existieren seit 2022 (OOXML Validator [9], Open XML SDK 2.5 Productivity Tool [10]). Die genannten Tools decken aktuell noch nicht die ganze Spezifikation ab, weshalb Formatfehler zum Teil nicht erkannt werden.

Best Practice: 1
Das Format wird in der Archivwelt weiterhin als Arbeitsformat, nicht als Archivformat eingeschätzt. Insbesondere werden in der Formatkategorie Text die automatisierten Updates von Feldern (v.a. Datum) als ungenügend für die Langzeitarchivierung erachtet. In der Praxis werden die DOCX und PPTX daher selten als akzeptables Archivformat genannt. [11] [12]

Perspektive: 2
Aufgrund der weiten Verbreitung des Formats in den Verwaltungen, und zur Vermeidung von Migrationen, ist eine Verwendung als Archivformat denkbar, wenn die funktionalen Mängel gemeistert werden können.

Formatklasse: B
Das Format wird in den aktuellen Versionen von MS Office angewendet.

 

Analyse

Nachfolgend wird auf Funktionalitäten eingegangen, welche in der archivischen Praxis Schwierigkeiten bereiten.

Felder

Archivisch schwierig zu handhaben, ist der Umgang mit jenen Feldern in DOCX und PPTX, welche ein automatisches Update anbieten. So besteht bei DOCX die Möglichkeit, Datums -und Zeitfelder automatisch aufzudatieren, wenn das Dokument geöffnet wird. Wird daher ein Dokument mit aktiviertem, automatischem Update abgeliefert und anschliessend durch das Archiv geöffnet, so wird das Originaldatum überschrieben. Das gleiche Verhalten tritt auch beim Drucken oder Konvertieren auf. Diese automatische Aktualisierung ist archivisch unerwünscht respektive ungenügend. [13]

Einbettung

Es gelten dieselben Einwände wie für das Format ODT/ODP: Die Darstellungserhaltung bei Konvertierungen ist mangelhaft, da in DOCX/PPTX Schriften nicht per se eingebettet sind oder sich nicht einbetten lassen. [14] [15] Auch bei der Konvertierung von DOCX/PPTX in PDF können Veränderungen im Layout auftreten, wenn Schriften nicht eingebettet sind. Die Frage nicht-eingebetteter Farbräume spielt hingegen bei DOCX/PPTX keine Rolle. OOXML-Nutzungsformate verwenden bei nativen Graphiken etc. immer den Farbraum sRGB [16] [17]. Falls externe Bilder in DOCX/PPTX importiert/eingebettet werden, so werden auch deren Farbrauminformationen übernommen, sofern diese im Bild vorhanden sind.
Neben Bildern können auch andere Objekte (Audio, Video u.a.) direkt oder mittels Links (z.B. YouTube-Kanal) in DOCX/PPTX eingebettet werden. Der Umgang mit eingebetteten Objekten wird im KOST-Eintrag Containerformate behandelt.

Verschlüsselung

Die vorhandene Schreibschutz- und vor allem die Verschlüsselungs- Option ist aus archivischer Sicht problematisch. Fehlt in letzterem Falle bei der Ablieferung das Passwort, so bedeutet dies für das Archiv Mehraufwand durch den Einsatz von Entschlüsselungssoftware oder gar den archivischen Verlust des Dokumentes.

Digitale Signatur

Bei DOCX/PPTX bestehen Sicherheitslücken bei der digitalen Signatur [18] Der allgemeine archivische Umgang mit Signaturen ist schweizweit noch nicht festgelegt und wird aktuell im KOST Projekt 22.041 Digitale Signaturen ausgehandelt.

    

Fazit

DOCX und PPTX sind ursprünglich proprietäre Textdatenformate, deren Dokumente nicht in jedem Fall eindeutig visuell reproduzierbar sind. Die korrekte Implementierung aller Funktionalitäten durch andere Produkte als diejenigen von Microsoft ist wegen der Komplexität der Spezifikation nicht garantiert. Das Format hat sich als Austauschformat im Office-Bereich etabliert.

Gegen eine Verwendung als Archivformat sprechen u.a.:

  1. Automatische Updates bei Feldern, v.a. Datum
  2. Nicht eingebettete Elemente (u.a. Schriften), da im digitalen Archiv ausschliesslich Daten und keine Programmcodes gehalten werden sollten.
  3. Die langfristig nicht gesicherte Lesbarkeit eingebetteter Objekte.

Die bedeutende Verbreitung als Produktionsformat macht jedoch ein späteres Angebot an Archive wahrscheinlich, womit z.B. das Problem der automatischen Updates von Feldern relevant werden könnte.

    

Referenzen

Standard ECMA-376, Office Open XML File Formats, 1st edition (December 2006), 2nd edition (December 2008), 3rd edition (June 2011), 4th edition (December 2012) and 5th edition (Part 3, December 2015; and Parts 1 & 4, December 2016):
https://ecma-international.org/publications-and-standards/standards/ecma-376/

Standard ISO/IEC 29500-1:2016:
https://www.iso.org/standard/71691.html
http://standards.iso.org/ittf/PubliclyAvailableStandards/index.html

Microsoft Open Specification Promise:
https://msdn.microsoft.com/en-us/openspecifications/

ISO/IEC 29500 Part 1 – 4 : Information technology — Document description and processing
languages — Office Open XML File Formats
https://standards.iso.org/ittf/PubliclyAvailableStandards/

   

Literatur

[1]        Library of Congress, «OOXML Format Family — ISO/IEC 29500 and ECMA 376», 2022
https://www.loc.gov/preservation/digital/formats/fdd/fdd000395.shtml.

[2]        Microsoft, «Open XML-Formate und -Dateinamenerweiterungen», 2021
https://support.microsoft.com/de-de/office/open-xml-formate-und-dateinamenerweiterungen-5200d93c-3449-4380-8e11-31ef14555b18.

[3]        Wikipedia, «Office Open XML», 2023
https://en.wikipedia.org/wiki/Office_Open_XML.

[4]        ECMA, «ECMA-388», 2009
https://www.ecma-international.org/publications-and-standards/standards/ecma-388/.

[5]        Library of Congress, «DOCX Strict (Office Open XML)», 2020
https://www.loc.gov/preservation/digital/formats/fdd/fdd000400.shtml.

[6]        ECMA, «ECMA-376 5th edition», 2021
https://www.ecma-international.org/publications-and-standards/standards/ecma-376/.

[7]        ISO/IEC, «ISO/IEC 29500», 2016
https://www.iso.org/standard/71691.html https://www.iso.org/standard/71692.html.

[8]        Microsoft, «Open Specification Promise», 2023
https://learn.microsoft.com/en-us/openspecs/dev_center/ms-devcentlp/1c24c7c8-28b0-4ce1-a47d-95fe1ff504bc https://learn.microsoft.com/de-ch/openspecs/dev_center/ms-devcentlp/03347966-f8ff-4d53-a05e-63419d4132e2.

[9]        Michael Bowen, «OOXML Validator», 2022
https://marketplace.visualstudio.com/items?itemName=mikeebowen.ooxml-validator-vscode&ssr=false#overview https://github.com/mikeebowen/ooxml-validator-vscode.

[10]      T. Jebo, «Open XML SDK 2.5 Productivity Tool», Microsoft, 2021
https://github.com/dotnet/Open-XML-SDK/releases/tag/v2.5.

[11]      ETH-Bibliothek, «File formats for archiving»,
https://documentation.library.ethz.ch/display/DD/File+formats+for+archiving.

[12]      Library of Congress, «Recommended Formats Statement»,
https://www.loc.gov/preservation/resources/rfs/text.html.

[13]      Staatsarchiv Bern, «Save the Data: docx im Jahre 2133», in Data Hackadays Bern 2023, Bern, 2023.

[14]      Microsoft, «Some of your fonts can't be saved with the presentation», 2021
https://support.microsoft.com/en-us/office/some-of-your-fonts-can-t-be-saved-with-the-presentation-2ba26947-5d18-4eb3-b5a9-67a58629e1b8#Tab=macOS&OfficeVersion=Windows.

[15]      Artefactual Systems and the Digital Preservation Coalition, «Data Types Series», Great Britain.

[16]      f. A. P. S. Dov Isaacs, «Adobe Support Community», 2020
https://community.adobe.com/t5/acrobat-discussions/company-colors-used-in-word-are-changed-when-saved-as-pdf-for-print/m-p/11461351.

[17]      Microsoft, «sRGB: A Standard Color Space», 2023
https://learn.microsoft.com/en-us/windows/win32/wcs/srgb--a-standard-color-space.

[18]      V. M. C. M. D. H. a. J. S. Simon Rohlmann, «Every Signature is Broken: On the Insecurity of Microsoft Office’s OOXML Signatures,» in 32nd USENIX Security Symposium, Anaheim, 2023.

[19]      Library of Congress, «DOCX Transitional», 2022
https://www.loc.gov/preservation/digital/formats/fdd/fdd000397.shtml.

    

Katalog archivischer Dateiformate Version 7.0, Juni 2024