DE FR IT

CSV e SIARD

[10-02-2020] I file CSV devono essere convertiti in SIARD?

I file CSV sono file di testo strutturati in modo tabellare; i singoli valori, campi o colonne sono separati da un separatore speciale, le righe sono generate da interruzioni di riga. Si tratta di un formato di database molto semplice, ma almeno esiste una connessione ODBC a Microsoft Jet Database Engine, che consente di eseguire query in SQL https://en.wikipedia.org/wiki/Microsoft_Jet_Database_Engine.

Il CSV è uno dei più vecchi formati di scambio di database ed è quindi relativamente comune negli archivi. Tuttavia, il CSV presenta alcuni aspetti problematici:

  • Il set di caratteri non è specificato nel formato; in origine era ASCII, ma oggi può essere anche ANSI o UTF-8.
  • La scelta del delimitatore è libera, anche se sono comuni le virgole, le tabulazioni e i punti e virgola.
  • La chiusura dei campi tra virgolette o virgolette è facoltativa.
  • Il numero di campi per riga non deve essere necessariamente lo stesso in una tabella CSV.
  • Non esistono informazioni di fissità (checksum, ecc.) che permettano di riconoscere una modifica in un file CSV.

I file CSV devono essere convertiti in SIARD?

Tutti questi problemi potrebbero essere risolti con la conversione in SIARD. Tuttavia, una conversione corretta riesce solo se tutti gli aspetti sopra elencati sono noti. Queste informazioni possono essere archiviate come metadati nella raccolta di file CSV senza eseguire una conversione. Con CSV Validator, gli Archivi Nazionali (Regno Unito) forniscono uno strumento http://digital-preservation.github.io/csv-validator/ con cui è possibile verificare queste specifiche o ipotesi.

Tuttavia, la conversione può essere necessaria se un database o uno schema di database deve essere archiviato in SIARD, ma per motivi tecnici o organizzativi non è possibile leggere il contenuto del database con uno strumento corrispondente. In questo caso, di solito si sceglie il formato CSV per lo scambio di dati tra il database e lo strumento SIARD.

Per quanto ne sappiamo, sono disponibili solo due strumenti per la conversione CSV > SIARD: la soluzione open source csv2siard v1.9 di CECO e la soluzione commerciale Full Convert v7 di Spectral Core https://www.fullconvert.com/databases/siard.

 

csv2siard

  • È dotato di un'interfaccia grafica modesta e moderatamente intuitiva e può essere eseguito anche in modalità batch.
  • Per utilizzare la GUI sono necessari i diritti di amministratore
  • Il set di caratteri, i delimitatori, le virgolette, l'estensione del file ecc. devono essere specificati in un file di preferenze per la conversione, ma possono essere riutilizzati per conversioni successive.
  • I file SIARD versione 1.0 vengono creati senza supporto BLOB.
  • Durante la conversione, le colonne di testo CSV vengono mappate sui tipi di campo del database secondo l'approccio più adatto.
  • Da questa mappatura viene generato un modello di dati secondo lo standard Apache Torque 4.0, ma è possibile utilizzare anche un modello di dati predefinito.
  • Nel modello di dati, il formato del campo e il commento possono essere inseriti a livello di campo e la struttura del database può essere definita; quando si converte con un modello di dati predefinito, le informazioni sulla struttura e i formati dei campi vengono applicati e il contenuto dei campi viene convalidato in base al formato (intero deve essere un numero, data deve essere un formato data)
  • csv2siard consente anche di eseguire query ODBC con query SQL memorizzate come fonte, quindi in linea di principio tutte le fonti di dati compatibili con ODBC (Microsoft Excel, Access ecc.) possono essere convertite in SIARD.
  • Durante la conversione viene effettuato un controllo del set di caratteri, ma non è previsto il riconoscimento automatico del set di caratteri o del separatore.

 

Full Convert

  • Converte i file CSV in formato SIARD 2.1 oltre a molti formati di database.
  • L'interfaccia grafica di controllo è intuitiva e aggiornata.
  • Non è previsto il rilevamento automatico del delimitatore
  • Il rilevamento automatico della codifica dei caratteri non funziona in modo affidabile
  • I file CSV devono essere denominati *.csv.
  • Durante la conversione, le colonne di testo CSV vengono mappate sui tipi di campo del database secondo l'approccio più adatto.
  • Non c'è la possibilità di controllare i tipi di dati delle colonne e la struttura delle tabelle durante la conversione (come è possibile in csv2siard o con CSV Validator).
  • Full Convert è veloce, cioè circa il doppio di csv2siard.
  • Le preferenze per la conversione possono essere salvate e riutilizzate in seguito, rendendo il programma GUI in linea di principio adatto anche ai lotti.
  • I BLOB sono supportati per i campi di dati di grandi dimensioni; Full Convert decide autonomamente se utilizzare i BLOB o l'XML in linea.
  • Dopo la conversione, è disponibile un semplice browser di dati per il file SIARD generato.