DE FR IT

XML

Allgemeine Informationen

Titel Extensible Markup Language
Kategorie Strukturierte und semistrukturierte Daten
Abkürzung XML
Dateiendung .xml
Mime Type application/xml, text/xml
Pronom PUID fmt/101 (XML 1.0), fmt/1776 (XML 1.1)
Version XML 1.0 [1] und XML 1.1 [2] folgen der Empfehlung von W3C (World Wide Web Consortium).

   

Beschreibung

XML ist ein reines Textformat und dient der Strukturierung und dem Austausch von Daten. Es ist sowohl menschen- wie maschinenlesbar. Ein XML besteht aus Datenelementen, die sich aus Strukturdaten (XML-Tags) und Nutzdaten (Attribute, Werte) zusammensetzen. XML ist das wichtigste und verbreitetste Format zum Austausch strukturierter und semistrukturierter Daten. Ein ausführlicher Beschrieb des Formates findet sich in [3] und in [4]. Aktuell existieren zwei XML-Versionen (XML 1.0 [1] XML 1.1 [2]), die auf einer Empfehlung des W3-Konsortiums basieren. Eine vereinfachte Darstellung des Aufbaus eines XML findet sich in [1] (siehe auch Abbildung 1) und eine Liste der wichtigsten Eigenschaften im KaD-Artikel zu JSON.

Aufbau XML

Abbildung 1: Aufbau eines XML, Illustration aus [3].

   

Bewertung

Offenheit: 4
XML ist durch das World Wide Web Consortium (W3C) spezifiziert, respektive empfohlen. Das W3C ist kein offizielles Standardisierungsgremium. Seine Empfehlungen werden jedoch de-facto als Standard betrachtet.

Lizenzfreiheit: 4
Es existieren keine Lizenzen auf das Textformat.

Verbreitung: 4
XML ist sehr stark verbreitet, u.a. da zahlreiche weitere, verbreitete Formate auf XML beruhen oder XML-Dateien verwenden (z.B. SVG, DOCX, ODF, SIARD).

Funktionalitaet: 4
Inhalt und Struktur reiner Plain-Text-Formate für strukturierte und semistrukturierte Daten (z.B. .CSV, JSON u.a.), lassen sich problemlos in XML migrieren. Das Layout kann sich ändern, ist jedoch bei Plain-Text archivisch ohne Bedeutung. Da XML komplexe Datenstrukturen, Datentypen und Relationen abbilden kann, wird XML für die Archivierung von strukturierten Daten aus Datenbanken standardmässig als Bestandteil des Datenbankarchivformates SIARD verwendet.

Implementierung: 4
XML kann mit jedem Texteditor erstellt und gelesen werden. Alle Webbrowser können XML verarbeiten. Mit Editoren wie Notepad++, Altova XMLSpy oder Software-Entwicklungsumgebungen ist auch eine Validierung möglich.

Speicherdichte: 3
Die (verlustfreie) Kompressionsrate von XML-Files kann stark variieren (Faktor 2-20), abhängig von der Dateigrösse und der Redundanz der Daten. Im Durchschnitt lassen sich XML-Files mit ca. Faktor 3-5 komprimieren. Mittels schemabasierter Kompression liessen sich die Strukturdaten im XML noch um mehrere Faktoren stärker komprimieren [1]. Ebenfalls liesse sich die Speicherdichte von XML erhöhen, indem ein XML nicht als Text, sondern binär (Binary XML wie z.B. EXI) enkodiert wird. Beide Ansätze haben sich in den vergangenen 10 Jahre noch nicht durchgesetzt.

Verifizierbarkeit: 3
Für die Validierung eines XML-Files gibt es zahlreiche Werkzeuge (z.B. Notepad++). Bei der Validierung wird geprüft, ob folgende Punkte der W3C-Empfehlung bei der Syntax erfüllt sind (Für Beispiele: ((https://www.ibm.com/docs/en/b2bis?topic=syntax-xml-rules|XML Syntax Rules - IBM Documentation)):

  • Das XML-File hat ein Root-Element, in welches die anderen Elemente eingebettet sind
  • XML-Elemente haben öffnende und schliessende Tags
  • In den XML-tags wird die Gross/Kleinschreibung beachtet
  • XML-Elemente müssen korrekt ineinander verschachtelt sein
  • XML-Attribute müssen in Anführungs- und Schlusszeichen stehen

Zusätzlich zu einer Validierung des Formates kann auch eine Schemavalidierung durchgeführt werden, falls ein XSD-file (XML Schema Definition File) vorhanden ist. Das XSD-file definiert sowohl die verwendeten Datentypen als auch die Struktur eines XML. Anstelle eines XSD kann auch ein DTD-file vorhanden sein. Ein DTD kann jedoch nicht zur Validierung verwendet werden, da es nur Informationen über zulässige Elementtypen beinhaltet.

Best Practice: 4
Als Nur-Text/Plain-Text ist XML als archivisches Format breit akzeptiert. In den Formatrichtlinien einiger archivischen Einrichtungen wird verlangt, dass das Schemafile (XSD) zum XML für die Langzeitarchivierung mitgeliefert wird.

Perspektive: 3
XML ist als Format gefestigt und wird sehr wahrscheinlich keine Veränderungen mehr erfahren. Die letzte Änderung des Formates erfolgte 2008. XML wird daher auch künftig ein geeignetes Format für die Langzeitarchivierung bleiben.

Formatklasse: A
XML ist ein altbekanntes Format der Informatik.

   

Analyse

Eine vergleichende Analyse von XML und JSON findet sich im KaD-Artikel JSON.

  

Fazit

XML erfüllt die meisten archivischen Anforderungen maximal (mit der wesentlichen Ausnahme der Layouterhaltung) und ist deshalb als Archivformat unbestritten. Für strukturierte Daten ist gegenwärtig XML anderen Dateiformaten wie JSON oder CSV vorzuziehen, da XML für die Beschreibung der Daten mehr Möglichkeiten bietet (siehe KaD-Artikel zu JSON ).

  

Referenz

Extensible Markup Language (XML) 1.0 (Fifth Edition) 
https://www.w3.org/TR/xml/

Extensible Markup Language (XML) 1.1 (Second Edition) 
https://www.w3.org/TR/2006/REC-xml11-20060816/

 

Literatur

[1]

World Wide Web Consortium (W3C), „Extensible Markup Language (XML) 1.0 (Fifth Edition),“ 
https://www.w3.org/TR/xml/

[2]

World Wide Web Consortium, „Extensible Markup Language (XML) 1.1 (Second Edition),“ 
https://www.w3.org/TR/2006/REC-xml11-20060816/

[3]

Wikipedia, „Extensible Markup Language,“ 
https://de.wikipedia.org/wiki/Extensible_Markup_Language

[4]

S. Schinkinger, „XML-Kompression und optische Codierung für den Transfer von Geschäftsdokumenten,“ Universität Passau, Passau, 2016.

  

Katalog archivischer Dateiformate Version 7.0, Juni 2024