I dati strutturati possono essere memorizzati in formati di testo puro e semi-strutturato, in database o in fogli di calcolo. Questo articolo tratta solo i principali formati semistrutturati di testo puro utilizzati per il trasferimento e l'archiviazione di dati strutturati. XML, in particolare, costituisce oggi la base di numerosi formati più complessi (SIARD, OOXML, SVG).
I dati strutturati sono dati memorizzati sotto forma di numeri e/o stringhe di caratteri in tabelle (righe e colonne). La struttura (numero di colonne), il tipo di dati di una colonna e la relazione con altre tabelle sono predefiniti. Con i dati strutturati, un'unità di dati deve corrispondere a una riga con un numero fisso di colonne. I database relazionali o le tabelle Excel (fogli di calcolo) sono formati per i dati strutturati. Un esempio di dati strutturati sono gli indirizzi delle abitazioni, che vengono memorizzati in una tabella. I nomi delle colonne corrispondono agli attributi dell'indirizzo: nome, cognome, via, comune e numero postale di avviamento.
Hubert | Humbpert | Hupfweg | Hueglingen | 01010 |
Illustrazione 1: Rappresentazione strutturata di un indirizzo in un database relazionale
Con i dati semi-strutturati, è possibile fornire i dati con metadati, annidare i dati l'uno nell'altro o consentire un numero diverso di colonne/attributi. I metadati possono anche essere utilizzati per comprendere la struttura, ad esempio registrando le relazioni tra i dati (chiavi). CSV, JSON e XML sono formati per i dati semi-strutturati.
Illustrazione 2: Rappresentazione semi-strutturata di un indirizzo in formato json. L'elemento contiene anche metadati ("firstname") per i dati (ad esempio "Hubert"). I dati e la descrizione dei dati non sono quindi separati.
I formati di testo puro sono meno potenti di un database come archivio di dati strutturati. D'altra parte, l'accesso ai dati è più facile, in quanto è sufficiente un semplice editor di testo. Gli svantaggi più significativi dei formati di testo puro rispetto ai database sono:
XML e JSON possono essere archiviati senza problemi dal punto di vista della conservazione a lungo termine. Per i dati strutturati, XML è attualmente preferibile ad altri formati di file come JSON o CSV, in quanto XML offre più opzioni per la descrizione dei dati.
Tuttavia, l'archiviazione di dati strutturati in CSV non è più consigliata per due motivi. In primo luogo, a causa della diversa gestione del mascheramento dei separatori e delle interruzioni di riga nelle diverse versioni di CSV. In secondo luogo, a causa degli svantaggi del CSV rispetto a XML e JSON quando si tratta di mappare o descrivere strutture di dati complesse.
Se i dati in file di testo (semi)strutturati provengono da database, è necessario consultare la raccomandazione del CECO sui database.
Catalogo dei formati dei file d'archivio | versione 7.0, giugno 2024 |