Phasen bei der Archivierung von Dateiablagen
Erste Phase: Bereitstellung des Aktenangebotes, Aufbereiten und Bewerten und technische Analyse
Technische Analyse
Die Technische Analyse beinhaltet Punkte wie Format- und Formattypenerkennung, Formatvalidierung, De-Duplizierung, Varianten und Versionen erkennen, Volumenanalyse, etc. und die Frage, welche Tools mit Vorteil dafür eingesetzt werden.
Bewertungsfragen inhaltlicher Natur sind nicht das Thema. Angesprochen wird aber die Frage, wie konkret eine Bewertung einer sehr grossen Ablage vorgenommen werden kann. In diesem Zusammenhang sollen Erkenntnisse gewonnen werden, in welcher Reihenfolge technische Analyse und Aufbereitung erfolgen sollen und ob es neben den bekannten Analysetools noch andere Möglichkeiten gibt, welche die Bewertungsarbeit erleichtern können.
Struktur/Hierarchie
Dateiformate
Metadaten
Bereinigung
Dateinamen
Validierung
Konvertierung
DMSTools: leistungsstarke Konvertierung im Batchverfahren nach PDF/A-2u. Kann z.B. auch Mails, inkl. Anhänge in ein PDF umwandeln. Repariert nicht lesbare PDFs. Ganze Fileablage auf einmal im Rendering Service konvertierbar. Investition ca. 4'000 bis 5'000 CHF (STASZ)
https://www.dmstools.de/
FFmpeg - Konvertierung von Videoformaten (Docuteam Feeder, Zugriff via Kommandozeile auf Ingestserver)
https://ffmpeg.org/ (UAZ, SAB, STASZ nur FFmpeg via Kommandozeile, StAOW)
Hashing
Weiteres
Filemaker-Datenbank der Fileablage via csv Export aus DROID. Diverse Scripts mit verschiedenen Funktionen z.B. Massenänderung von Dateinamen, Sonderzeichen bereinigen, summarische Löschung von bestimmten Fileformaten, Löschung von Doppeln usw. (StAOW)
Fragen
UAZ: Mit Tree Size werden bis auf eine alle Versionen gelöscht. Überall wo aber die Datei vorhanden war gibt es ein Icon welches vortäuscht, dass eine Datei dort ist. Dahinter führt ein Link zur noch einzigen vorhandenen Version. Man kann natürlich jetzt diskutieren, wo denn das Original hingehört. Darüber zerbrechen wir uns aber nicht den Kopf. Bei identischen Kopien ist die Frage nach dem Original schwierig zu beantworten.
StAOW: Vielen Dank für die Antwort! Dieses Vorgehen haben wir uns auch überlegt. Allerdings kann sich in unserem System eine Benutzerin oder ein Benutzer auch nur einen Teil eines AIPs als DIP ausgeben lassen. Unter Umständen beinhaltet das DIP dann nur Links, die ins Leere führen.
Best Practice
Geplantes Vorgehen: Extraktion / Dokumentation Metadaten, Formatanalyse, Eruieren von Duplikaten, ggf. Datennormalisierung (z.B. ersetzen von Sonderzeichen u.ä. in Dateinamen) (AfZ)
offene Fragen: wie können wir automatische Felder (z.B. Datum / Bearbeiter) deaktivieren und auf dem Stand zum Zeitpunkt des Transfers „einfrieren“. (AfZ, UAZ)
Bereinigung Sonderzeichen, Dateien ohne Endungen eruieren, doppelte Dateien identifizieren, problematische Dateiformate manuell umwandeln, SIP erstellen (UAZ)
Die technische Analyse erfolgt erst nach der inhaltlichen Analyse. 1. Konvertierung in archivtaugliche Formate (mit DMSTools), 2. manuelle Konvertierung von problematischen Dateien, 3. Sonderzeichen/Umlaute auflösen (Flexible Renamer), Pfadlängen kürzen (Flexible Renamer, manuell), 4. SIP-Struktur manuell vorbereiten (STASZ)
Ein Teil der technischen Analyse erfolgt vor der inhaltlichen Analyse. Ziel: Bewertet wird nur, was tatsächlich auch übernommen werden kann. Bei der technischen Analyse vorgenommene Löschungen betreffen nur nicht archivwürdige Unterlagen. Formatmigration in archivtaugliche Dateiformate erfolgt erst beim Ingest des SIPs und wird so in den technischen Metadaten des AIPs dokumentiert. (StAOW) Frage: Wie validiert ihr dann die SIPs, wenn die Konvertierung erst beim Ingest passiert (z.B. valide PDF/A-2u Dateien)? Oder validiert ihr während/nach dem Ingest? Wenn wir etwas ins Repository ingestiert haben, können wir es nicht mehr löschen. (STASZ) StAOW: Wir validieren Stichproben nach dem Ingest. Bisher sind wir dabei bei keinem der überprüften Dateiformate auf nicht valide Dateien gestossen. Wir sind uns der Anfälligkeit dieses Vorgehens aber bewusst. Der Einbau von KOST-Val als Schritt im modular aufgebauten Ingest mit Docuteam Feeder ist in Diskussion.
Literatur