DE FR IT

Formaterkennung und -validierung

Theorie und Praxis

Archivtaugliche Formate - und dann?

In der Praxis reicht es nicht aus, dass ein Archiv definiert hat, welche Formate es für die digitale Archivierung akzeptiert. Vielmehr muss bei jedem Ingest überprüft werden, ob diese Vorgaben tatsächlich eingehalten werden; sonst handelt sich das Archiv womöglich ein Risiko für die Bestandserhaltung ein. Diese Überprüfung vollzieht sich in zwei Schritten: zunächst in einer automatischen Formaterkennung, danach in der Validierung der gesamten Datei.

Was bedeutet das?

Die Formaterkennung identifiziert das Format einer Datei bis zu einer bestimmten, gewünschten Granularität. Sie stützt sich dabei auf das Vorhandensein besonders charakteristischer Eigenschaften; in der Regel sind dies bestimmte Bytesequenzen innerhalb der Datei. Die Formatvalidierung überprüft, ob eine Datei der Spezifikation ihres Formats entspricht. Dabei muss jede einzelne der in der Formatspezifikation verlangten Eigenschaften überprüft werden. Nur wenn alle Eigenschaften erfüllt sind, ist die Datei valide.
Für die Formaterkennung existieren mehrere, gut etablierte Datenbanken und Werkzeuge. Die Formatvalidierung ist technisch ungleich komplexer; entsprechend ist hier das Toolangebot beschränkt, insbesondere für Formate ausserhalb des Mainstreams.

Studie der KOST

Grundlagen der Formaterkennung und -validierung sind in einer neuen Studie der KOST dargelegt. Die Studie untersucht auch verfügbare Datenbanken (z.B. PRONOM) und Werkzeuge im Bereich der Formaterkennung. Sie beruht auf dem Beitrag von Claire Röthlisberger zur Jahrestagung 2012 des deutschen Arbeitskreises „Archivierung von Unterlagen aus digitalen Systemen“.

Download

Formaterkennung-validierung.pdf, 598.3K, 04.09.24
Formaterkennung und Formatvalidierung: Theorie und Praxis