Les données structurées peuvent être stockées aussi bien dans de purs formats texte semi-structurés, dans des bases de données ou dans des formats de tableurs. Le présent article traite uniquement des principaux formats de texte brut semi-structurés utilisés pour transférer et sauvegarder des données structurées. XML surtout constitue dans l’intervalle la base de nombreux formats plus complexes (SIARD, OOXML, SVG).
Les données structurées sont des données qui peuvent être enregistrées sous la forme de chiffres et/ou de chaînes de caractères dans des tables (lignes et colonnes). La structure (nombre de colonnes), le type de données d’une colonne ainsi que la relation à d’autres tables sont prédéfinis. Dans le cas de données structurées, une unité de données doit correspondre à une ligne avec un nombre fixe de colonnes. Les bases de données relationnelles et les tableaux Excel (tableurs) sont des formats pour données structurées. Les adresses de domicile enregistrées dans un tableau sont un exemple de données structurées. Dans ce cas, l’intitulé des colonnes correspond aux attributs d’adresse «prénom», «nom», «rue», «commune» et «code postal».
Hubert | Humbpert | Hupfweg | Hueglingen | 01010 |
Illustration 1: représentation structurée d’une adresse dans une base de données relationnelle
Avec des données semi-structurées, il est possible de doter les données de métadonnées, d’imbriquer des données les unes dans les autres ou d’autoriser un nombre différent de colonnes/attributs. En consignant par exemple les relations des données entre elles (clé), les métadonnées facilitent également la compréhension de la structure. CSV, JSON et XML sont des formats pour données semi-structurées.
Illustration 2: représentation semi-structurée d’une adresse en format json. Aux données contenues dans l’élément (p. ex. «Hubert») viennent s’ajouter des métadonnées («firstname»). Les données et la description des données ne sont donc pas séparées.
Les purs formats de texte représentent des espaces de stockage moins performants pour les données structurées qu’une base de données. Cela étant, l’accès aux données est plus simple puisqu’un simple éditeur de texte suffit. Les inconvénients principaux des purs formats de texte par rapport aux bases de données sont:
XML et JSON peuvent être archivés sans problème dans une perspective de longue durée. Actuellement, XML doit être privilégié par rapport à d’autres formats de fichiers tels que JSON ou CSV étant donné que XML offre plus de possibilités en matière de description des données.
Il n’est toutefois plus recommandé d’enregistrer des données structurées en CSV et ce pour deux raisons. Premièrement, à cause des diverses manières de masquer les caractères de séparation et les sauts de ligne dans les différentes versions de CSV. Deuxièmement, en raison des inconvénients de CSV par rapport à XML et JSON lorsqu’il s’agit de représenter ou de décrire des structures de données complexes.
Il convient de consulter la recommandation du CECO sur les bases de données si les données de fichiers texte (semi-)structurés proviennent de bases de données.
Catalogue des formats de fichiers pour l'archivage | version 7.0, juin 2024 |