DE FR IT

Formati di dati strutturati: riepilogo

I dati strutturati possono essere memorizzati in formati di testo puro e semi-strutturato, in database o in fogli di calcolo. Questo articolo tratta solo i principali formati semistrutturati di testo puro utilizzati per il trasferimento e l'archiviazione di dati strutturati. XML, in particolare, costituisce oggi la base di numerosi formati più complessi (SIARD, OOXML, SVG).

I dati strutturati sono dati memorizzati sotto forma di numeri e/o stringhe di caratteri in tabelle (righe e colonne). La struttura (numero di colonne), il tipo di dati di una colonna e la relazione con altre tabelle sono predefiniti. Con i dati strutturati, un'unità di dati deve corrispondere a una riga con un numero fisso di colonne. I database relazionali o le tabelle Excel (fogli di calcolo) sono formati per i dati strutturati. Un esempio di dati strutturati sono gli indirizzi delle abitazioni, che vengono memorizzati in una tabella. I nomi delle colonne corrispondono agli attributi dell'indirizzo: nome, cognome, via, comune e numero postale di avviamento.

Hubert Humbpert Hupfweg Hueglingen 01010

Illustrazione 1: Rappresentazione strutturata di un indirizzo in un database relazionale

Con i dati semi-strutturati, è possibile fornire i dati con metadati, annidare i dati l'uno nell'altro o consentire un numero diverso di colonne/attributi. I metadati possono anche essere utilizzati per comprendere la struttura, ad esempio registrando le relazioni tra i dati (chiavi). CSV, JSON e XML sono formati per i dati semi-strutturati.

example JSON

Illustrazione 2: Rappresentazione semi-strutturata di un indirizzo in formato json. L'elemento contiene anche metadati ("firstname") per i dati (ad esempio "Hubert"). I dati e la descrizione dei dati non sono quindi separati.

I formati di testo puro sono meno potenti di un database come archivio di dati strutturati. D'altra parte, l'accesso ai dati è più facile, in quanto è sufficiente un semplice editor di testo. Gli svantaggi più significativi dei formati di testo puro rispetto ai database sono:

  • La coerenza dei dati non viene controllata:
    Gli attributi relazionali, cioè quelli che sono stati memorizzati più volte in tabelle diverse o simili, non vengono controllati per verificarne la coerenza. Questo può portare, ad esempio, alla disponibilità di diversi indirizzi di casa contraddittori per una stessa persona. Con i database, invece, le informazioni come l'indirizzo di casa vengono memorizzate a livello centrale e le modifiche vengono effettivamente apportate solo a questo indirizzo memorizzato.
  • La validità dei dati non viene controllata:
    Nei formati di solo testo, ad esempio, le voci per l'attributo NPA possono essere anche di testo, il che può portare a inserimenti errati, come il nome del luogo di residenza al posto del NPA. Nei database, invece, il sistema controlla se l'inserimento è valido.

   

Formati analizzati (in francese) 

   

Raccomandazione 

XML e JSON possono essere archiviati senza problemi dal punto di vista della conservazione a lungo termine. Per i dati strutturati, XML è attualmente preferibile ad altri formati di file come JSON o CSV, in quanto XML offre più opzioni per la descrizione dei dati.
Tuttavia, l'archiviazione di dati strutturati in CSV non è più consigliata per due motivi. In primo luogo, a causa della diversa gestione del mascheramento dei separatori e delle interruzioni di riga nelle diverse versioni di CSV. In secondo luogo, a causa degli svantaggi del CSV rispetto a XML e JSON quando si tratta di mappare o descrivere strutture di dati complesse.
Se i dati in file di testo (semi)strutturati provengono da database, è necessario consultare la raccomandazione del CECO sui database.

    

Catalogo dei formati dei file d'archivio versione 7.0, giugno 2024