Benutzer-Werkzeuge

Webseiten-Werkzeuge


technische_analyse

Phasen bei der Archivierung von Dateiablagen
Erste Phase: Bereitstellung des Aktenangebotes, Aufbereiten und Bewerten und technische Analyse

Technische Analyse

Die Technische Analyse beinhaltet Punkte wie Format- und Formattypenerkennung, Formatvalidierung, De-Duplizierung, Varianten und Versionen erkennen, Volumenanalyse, etc. und die Frage, welche Tools mit Vorteil dafür eingesetzt werden.

Bewertungsfragen inhaltlicher Natur sind nicht das Thema. Angesprochen wird aber die Frage, wie konkret eine Bewertung einer sehr grossen Ablage vorgenommen werden kann. In diesem Zusammenhang sollen Erkenntnisse gewonnen werden, in welcher Reihenfolge technische Analyse und Aufbereitung erfolgen sollen und ob es neben den bekannten Analysetools noch andere Möglichkeiten gibt, welche die Bewertungsarbeit erleichtern können.

Tools

Struktur/Hierarchie

Dateiformate

Metadaten

Bereinigung

Dateinamen

  • H2rename: Sonderzeichenbereinigung (UAZ)
  • Irfan View: Massenänderung von Dateinamen, Anhängen von Formatendungen, Umwandlungen (UAZ, SAB) http://www.irfanview.com/

Validierung

  • Adobe Preflight: Analyse bei Problemen mit der Umwandlung in PDF/A (UAZ, STASH, SAB)
  • JHOVE eingebaut in Rosetta (ETHZ)

Konvertierung

  • DMSTools: leistungsstarke Konvertierung im Batchverfahren nach PDF/A-2u. Kann z.B. auch Mails, inkl. Anhänge in ein PDF umwandeln. Repariert nicht lesbare PDFs. Ganze Fileablage auf einmal im Rendering Service konvertierbar. Investition ca. 4'000 bis 5'000 CHF (STASZ) https://www.dmstools.de/
  • Auto Portfolio - Auseinandernehmen von Portfolio PDF / bisher nur einmal angewendet (UAZ)
  • FFmpeg - Konvertierung von Videoformaten (Docuteam Feeder, Zugriff via Kommandozeile auf Ingestserver) https://ffmpeg.org/ (UAZ, SAB, STASZ nur FFmpeg via Kommandozeile, StAOW)
  • PDF-Tools: Konvertierung von Textdokumenten (Word) nach PDF (StAZG)

Hashing

Weiteres

  • Externer Zugang via hotfolder zu PDF-Tools des Docuteam Feeder. Hauptsächlich in Gebrauch für Migrationstests. (StAOW)
  • Filemaker-Datenbank der Fileablage via csv Export aus DROID. Diverse Scripts mit verschiedenen Funktionen z.B. Massenänderung von Dateinamen, Sonderzeichen bereinigen, summarische Löschung von bestimmten Fileformaten, Löschung von Doppeln usw. (StAOW)

Fragen

  • Wie wird bei der Deduplizierung vorgegangen / wird eine Deduplizierung vorgenommen? Wie wird entschieden welche Datei bei einer doppelt oder mehrfach vorhandenen Datei behalten und welche gelöscht wird? Manuelle Überprüfung des „korrekten“ Ablageorts ist vom Arbeitsaufwand her nicht möglich. (StAOW)

UAZ: Mit Tree Size werden bis auf eine alle Versionen gelöscht. Überall wo aber die Datei vorhanden war gibt es ein Icon welches vortäuscht, dass eine Datei dort ist. Dahinter führt ein Link zur noch einzigen vorhandenen Version. Man kann natürlich jetzt diskutieren, wo denn das Original hingehört. Darüber zerbrechen wir uns aber nicht den Kopf. Bei identischen Kopien ist die Frage nach dem Original schwierig zu beantworten. StAOW: Vielen Dank für die Antwort! Dieses Vorgehen haben wir uns auch überlegt. Allerdings kann sich in unserem System eine Benutzerin oder ein Benutzer auch nur einen Teil eines AIPs als DIP ausgeben lassen. Unter Umständen beinhaltet das DIP dann nur Links, die ins Leere führen.

  • Abhängigkeit Docuteam Feeder (Konvertierung, Fehlermeldungen usw.) (SAB)

Best Practice

  • Geplantes Vorgehen: Extraktion / Dokumentation Metadaten, Formatanalyse, Eruieren von Duplikaten, ggf. Datennormalisierung (z.B. ersetzen von Sonderzeichen u.ä. in Dateinamen) (AfZ)
  • offene Fragen: wie können wir automatische Felder (z.B. Datum / Bearbeiter) deaktivieren und auf dem Stand zum Zeitpunkt des Transfers „einfrieren“. (AfZ, UAZ)
  • Bereinigung Sonderzeichen, Dateien ohne Endungen eruieren, doppelte Dateien identifizieren, problematische Dateiformate manuell umwandeln, SIP erstellen (UAZ)
  • Die technische Analyse erfolgt erst nach der inhaltlichen Analyse. 1. Konvertierung in archivtaugliche Formate (mit DMSTools), 2. manuelle Konvertierung von problematischen Dateien, 3. Sonderzeichen/Umlaute auflösen (Flexible Renamer), Pfadlängen kürzen (Flexible Renamer, manuell), 4. SIP-Struktur manuell vorbereiten (STASZ)
  • Ein Teil der technischen Analyse erfolgt vor der inhaltlichen Analyse. Ziel: Bewertet wird nur, was tatsächlich auch übernommen werden kann. Bei der technischen Analyse vorgenommene Löschungen betreffen nur nicht archivwürdige Unterlagen. Formatmigration in archivtaugliche Dateiformate erfolgt erst beim Ingest des SIPs und wird so in den technischen Metadaten des AIPs dokumentiert. (StAOW) Frage: Wie validiert ihr dann die SIPs, wenn die Konvertierung erst beim Ingest passiert (z.B. valide PDF/A-2u Dateien)? Oder validiert ihr während/nach dem Ingest? Wenn wir etwas ins Repository ingestiert haben, können wir es nicht mehr löschen. (STASZ) StAOW: Wir validieren Stichproben nach dem Ingest. Bisher sind wir dabei bei keinem der überprüften Dateiformate auf nicht valide Dateien gestossen. Wir sind uns der Anfälligkeit dieses Vorgehens aber bewusst. Der Einbau von KOST-Val als Schritt im modular aufgebauten Ingest mit Docuteam Feeder ist in Diskussion.

Literatur

/home/kostceco/public_html/kostwiki/data/pages/technische_analyse.txt · Zuletzt geändert: 2021/01/25 08:24 von mario.seger