DE FR IT

Formats de données structurées : résumé

Les données structurées peuvent être stockées aussi bien dans de purs formats texte semi-structurés, dans des bases de données ou dans des formats de tableurs. Le présent article traite uniquement des principaux formats de texte brut semi-structurés utilisés pour transférer et sauvegarder des données structurées. XML surtout constitue dans l’intervalle la base de nombreux formats plus complexes (SIARDOOXMLSVG).

Les données structurées sont des données qui peuvent être enregistrées sous la forme de chiffres et/ou de chaînes de caractères dans des tables (lignes et colonnes). La structure (nombre de colonnes), le type de données d’une colonne ainsi que la relation à d’autres tables sont prédéfinis. Dans le cas de données structurées, une unité de données doit correspondre à une ligne avec un nombre fixe de colonnes. Les bases de données relationnelles et les tableaux Excel (tableurs) sont des formats pour données structurées. Les adresses de domicile enregistrées dans un tableau sont un exemple de données structurées. Dans ce cas, l’intitulé des colonnes correspond aux attributs d’adresse «prénom», «nom», «rue», «commune» et «code postal». 

Hubert Humbpert Hupfweg Hueglingen 01010

Illustration 1: représentation structurée d’une adresse dans une base de données relationnelle 

Avec des données semi-structurées, il est possible de doter les données de métadonnées, d’imbriquer des données les unes dans les autres ou d’autoriser un nombre différent de colonnes/attributs. En consignant par exemple les relations des données entre elles (clé), les métadonnées facilitent également la compréhension de la structure. CSV, JSON et XML sont des formats pour données semi-structurées. 

example JSON

Illustration 2: représentation semi-structurée d’une adresse en format json. Aux données contenues dans l’élément (p. ex. «Hubert») viennent s’ajouter des métadonnées («firstname»). Les données et la description des données ne sont donc pas séparées.

Les purs formats de texte représentent des espaces de stockage moins performants pour les données structurées qu’une base de données. Cela étant, l’accès aux données est plus simple puisqu’un simple éditeur de texte suffit. Les inconvénients principaux des purs formats de texte par rapport aux bases de données sont:

  • La cohérence des données n’est pas vérifiée:
    la cohérence des attributs relationnels, c’est-à-dire les attributs qui ont été enregistrés à plusieurs reprises dans différents tableaux ou autres, n’est pas vérifiée. Cela peut avoir pour conséquence par exemple une contradiction entre plusieurs adresses de domicile indiquées pour une personne. Les bases de données en revanche enregistrent de manière centralisée les informations telles que le domicile, et les modifications sont effectivement répercutées uniquement sur cette adresse.
  • La validité des données n’est pas vérifiée:
    les purs formats de texte permettent aussi de saisir du texte, notamment pour l’attribut code postal, ce qui peut engendrer des erreurs, par exemple, saisir le nom du domicile au lieu du numéro postal. Une base de données en revanche vérifie si la saisie est valide.

   

Formats examinés 

   

Recommandation 

XML et JSON peuvent être archivés sans problème dans une perspective de longue durée. Actuellement, XML doit être privilégié par rapport à d’autres formats de fichiers tels que JSON ou CSV étant donné que XML offre plus de possibilités en matière de description des données.
Il n’est toutefois plus recommandé d’enregistrer des données structurées en CSV et ce pour deux raisons. Premièrement, à cause des diverses manières de masquer les caractères de séparation et les sauts de ligne dans les différentes versions de CSV. Deuxièmement, en raison des inconvénients de CSV par rapport à XML et JSON lorsqu’il s’agit de représenter ou de décrire des structures de données complexes.
Il convient de consulter la recommandation du CECO sur les bases de données si les données de fichiers texte (semi-)structurés proviennent de bases de données.

    

Catalogue des formats de fichiers pour l'archivage version 7.0, juin 2024