DE FR IT

CSV und SIARD

[14-11-2024] Soll man CSV-Dateien in SIARD konvertieren?

Bei CSV-Dateien handelt es sich um tabellarisch strukturierte Text-Dateien; die einzelnen Werte, Felder bzw. Spalten werden durch ein spezielles Trennzeichen getrennt, Zeilen durch Zeilenumbruch generiert. Es handelt sich dabei um ein sehr einfaches Format für strukturierte Daten.

CSV ist eines der ältesten Datenbank-Austauschformate und darum in den Archiven relativ verbreitet. CSV hat aber ein paar problematische Aspekte:

  • Der Zeichensatz ist im Format nicht spezifiziert, bzw. war ursprünglich ASCII, kann aber heute auch ANSI oder UTF-8 sein
  • Die Wahl des Trennzeichens (Delimiter) ist frei, wenn auch Komma, Tabulator und Strichpunkt üblich sind
  • Das Einschliessen der Felder in Hochkommas oder Anführungszeichen (Quotation Marks) ist optional
  • Die Anzahl Felder pro Zeile muss in einer CSV-Tabelle nicht zwingend gleich sein
  • Es gibt keine Fixityinformationen (Checksummen etc.), an denen eine Veränderung einer CSV-Datei erkannt werden könnte

Soll man CSV-Dateien in SIARD konvertieren?

Die Archivierung von strukturierten Daten in CSV wird nicht mehr empfohlen. Erstens aufgrund der bereits erwähnten Probleme. Zweitens aufgrund der Nachteile von CSV gegenüber XML und JSON, wenn es darum geht, komplexe Datenstrukturen abzubilden oder zu beschreiben.

Falls Daten in (semi-)strukturierten Textdateien aus Datenbanken stammen, empfiehlt die KOST diese Dateien nach SIARD zu konvertieren.

Ein Konvertierung drängt sich aber auch auf, wenn eine Datenbank bzw. ein Datenbankschema in SIARD archiviert werden soll, es aber aus technischen oder organisatorischen Aspekten nicht möglich ist, mit einem entsprechenden Tool den Inhalt der Datenbank auszulesen. In diesem Fall wird in der Regel CSV oder vermehrt JSON als Datenaustauschformat zwischen Datenbank und SIARD-Tool gewählt.

Eine Übersicht der Tools, welche SIARD unterstützen, ist unter siard-lesen-und-schreiben ersichtlich.