DE FR IT

CSV et SIARD

[14-11-2024] Les fichiers CSV doivent-ils être convertis au format SIARD ?

Le site a été traduit de l'allemand vers le français à l'aide du logiciel DeepL.

Les fichiers CSV sont des fichiers texte structurés sous forme de tableau ; les différentes valeurs, champs ou colonnes sont séparés par un séparateur spécial, les lignes sont générées par un retour à la ligne. Il s'agit d'un format très simple pour les données structurées.

Le CSV est l'un des plus anciens formats d'échange de bases de données et est donc relativement courant dans les archives. Cependant, CSV présente quelques aspects problématiques :

  • Le jeu de caractères n'est pas spécifié dans le format, ou était à l'origine ASCII, mais aujourd'hui il peut aussi être ANSI ou UTF-8
  • Le choix du séparateur (delimiter) est libre, bien que la virgule, la tabulation et le point-virgule soient courants
  • L'inclusion des champs entre guillemets (quotation marks) est facultative
  • Le nombre de champs par ligne dans un tableau CSV ne doit pas nécessairement être le même
  • Il n'y a pas d'informations d’intégrité (sommes de contrôle, etc.) qui pourraient être utilisées pour détecter un changement dans un fichier CSV

Faut-il convertir les fichiers CSV en SIARD ?

L'archivage de données structurées en CSV n'est plus recommandé. Premièrement, en raison des problèmes déjà mentionnés. Ensuite, en raison des inconvénients du CSV par rapport au XML et au JSON lorsqu'il s'agit de reproduire ou de décrire des structures de données complexes.

Si les données proviennent de banques de données sous forme de fichiers texte (semi-)structurés, le CECO recommande de convertir ces fichiers en SIARD.

Une conversion s'impose également lorsqu'une base de données ou un schéma de base de données doit être archivé dans SIARD, mais qu'il n'est pas possible, pour des raisons techniques ou organisationnelles, de lire le contenu de la base de données à l'aide d'un outil approprié. Dans ce cas, on choisit en général CSV ou de plus en plus JSON comme format d'échange de données entre la base de données et l'outil SIARD.

Un aperçu des outils qui supportent SIARD est disponible sous Lire et écrire des fichiers SIARD.