Strukturierte Datenformate: Zusammenfassung

Strukturierte Daten können sowohl in reinen, semi-strukturierten Textformaten, in Datenbanken oder in Tabellenkalkulationsformaten abgelegt werden. In diesem Artikel werden nur die wichtigsten, für die Übertragung und Speicherung von strukturierten Daten verwendeten, semi-strukturierten plain-Text-Formate behandelt. Vor allem XML bildet mittlerweile die Basis für zahlreiche komplexere Formate (SIARD, OOXML, SVG).

Strukturierte Daten sind Daten, welche in Form von Zahlen und/oder Zeichenfolgen in Tabellen (Reihen und Spalten) festgehalten werden. Die Struktur (Anzahl Spalten), der Datentyp einer Spalte, sowie die Beziehung zu anderen Tabellen sind vordefiniert. Bei strukturierten Daten muss eine Dateneinheit einer Zeile mit einer fixen Anzahl Spalten entsprechen. Relationale Datenbanken oder Excel-Tabellen (Tabellenkalkulation) sind Formate für strukturierte Daten. Ein Beispiel strukturierter Daten sind Wohnadressen, die in einer Tabelle abgespeichert werden. Die Spaltennamen entsprechen dabei den Adressattributen Vorname, Name, Strasse, Gemeinde und Postleitzahl.

Hubert

Humbpert

Hupfweg

Hueglingen

01010

Abbildung 1: Strukturierte Darstellung einer Adresse in einer relationalen Datenbank

Bei semi-strukturierten Daten ist es möglich, Daten mit Metadaten zu versehen, Daten ineinander zu verschachteln oder eine unterschiedliche Anzahl Spalten/Attribute zuzulassen. Die Metadaten können auch dem Verständnis der Struktur dienen, indem sie z.B. die Relationen der Daten untereinander festhalten (Schlüssel). CSV, JSON und XML sind Formate für semi-strukturierte Daten.

Beispiel JSON Struktur

Abbildung 2: Semi-strukturierte Darstellung einer Adresse im Format json. Zu Daten (z.B. "Hubert") werden im Element auch Metadaten ("firstname") mitgegeben. Daten und Datenbeschreibung sind also nicht getrennt.

Reine Textformate sind als Speicher für strukturierte Daten weniger mächtig als eine Datenbank. Andererseits ist der Zugriff auf die Daten einfacher, da ein einfacher Texteditor genügt. Die gewichtigsten Nachteile reiner Textformate gegenüber Datenbanken sind:

Datenkonsistenz wird nicht geprüft:
Relationale Attribute, also Attribute, welche mehrfach in verschiedenen Tabellen o.ä. abgelegt wurden, werden nicht auf ihre Konsistenz überprüft. Das kann z.B. dazu führen, dass zu einer Person mehrere, widersprüchliche Wohnadressen vorhanden sind. Bei Datenbanken werden hingegen Informationen wie z.B. eine Wohnadresse zentral hinterlegt und Änderungen werden effektiv nur an dieser hinterlegten Adresse vorgenommen.
Datenvalidität wird nicht geprüft:
Bei reinen Textformaten können z.B. Einträge zum Attribut Postleitzahl auch Text sein, was zu fehlerhaften Einträgen führen kann, wie z.B. der Name des Wohnortes anstelle der PLZ. Bei Datenbanken hingegen wird geprüft, ob der Eintrag valide ist.

Untersuchte Formate

Empfehlung

Die XML und JSON können aus der Perspektive der Langzeiterhaltung bedenkenlos archiviert werden. Für strukturierte Daten ist gegenwärtig XML anderen Dateiformaten wie JSON oder CSV vorzuziehen, da XML für die Beschreibung der Daten mehr Möglichkeiten bietet.
Die Ablage von strukturierten Daten in CSV wird allerdings aus zwei Gründen nicht mehr empfohlen. Erstens aufgrund der unterschiedlichen Handhabung der Maskierung von Trennzeichen und Zeilenumbruch bei verschiedenen CSV-Versionen. Zweitens aufgrund der Nachteile von CSV gegenüber XML und JSON, wenn es darum geht, komplexe Datenstrukturen abzubilden oder zu beschreiben.
Falls Daten in (semi-)strukturierten Textdateien aus Datenbanken stammen, ist die KOST-Empfehlung zu Datenbanken zu konsultieren.

Katalog archivischer Dateiformate

Version 7.0, Juni 2024