DE  |  FR  |  IT

CSV

Informations générales

TitreComma-Separated Values; Colon-Separated Values; Character-Separated Values
CatégorieDonnées structurées de tableurs et bases de données
AbréviationCSV
Extension de fichier.txt, .csv
Mime Typetext/CSV - text/comma-separated-values
Pronom PUIDx-fmt/18
VersionIl n’existe pas de norme générale du format de fichiers CSV.<br /> Un cahier des charges RFC du format d’un fichier CSV existe et sert en générale de référence: RFC 4180.

Description

Les données CSV sont des fichiers ASCII structurés sous forme de tableau. Les valeurs, les champs ou les colonnes individuelles sont séparés par un délimiteur, par exemple une virgule ou un point-virgule. Les lignes des tableaux sont séparées par un saut de ligne. Lors du transfert d’une base de données relationnelles dans des fichiers CSV, chaque tableau de la base de données est copié dans un fichier CSV.
Les différentes variantes et quasi-normes du format de fichier CSV se distinguent par le masquage des délimiteurs et du retour automatique à la ligne dans les champs.
Deux variantes CSV sont particulièrement intéressantes dans le domaine des bases de données:

  • Le format CSV de Microsoft Excel se distingue par des guillemets délimitant les champs et par un nombre variable de champs par ligne. La première ligne permet d’indiquer les noms des colonnes. Le format Excel CSV peut être lu par de nombreuses bases de données.
  • Le SQL-Loader File d’ORACLE introduit un en-tête précédant le contenu du fichier CSV dans lequel la dénomination des champs, leur format, le jeu de caractères, etc. sont définis. De nombreuses bases de données peuvent importer ou créer des «SQL-Loader Files».

Evaluation

Ouverture du format: 4
Il n’existe pas de norme générale du format de fichiers CSV. Par contre, la spécification est contenue pour l’essentiel dans RFC 4180 et extrêmement simple.

Licence libre: 3
Il n’existe pas de restrictions juridiques associées à une licence; cela est vraisemblablement aussi le cas pour Excel CSV Format et SQL-Loader File.

Diffusion: 4
CSV est le format d’échange de données structurées le plus répandu, autrement dit entre bases de données et tableurs.

Fonctionnalités: 1
Les fichiers CSV sont ce que l’on nomme des flat files, autrement dit seules les informations d’un tableau peuvent être stockées dans un fichier. La plupart des bases de données ont toutefois recours à des structures hiérarchiques ou relationnelles pour stocker les données. Pour reproduire aussi cette structure dans une flat file, il est nécessaire de répéter des informations, d’où une redondance des données. En outre, les données stockées dans les fichiers CSV ne sont pas formatées. Il est impossible de reprendre des formats de champs, des structures de données ou des formules.

Implémentation: 4
L’immense majorité des bases de données et des tableurs sont capables de créer ou de lire des fichiers CSV.

Densité de mémorisation: 3
Pas de compression des données, les contenus des champs sont reproduits caractère par caractère. La représentation des structures entre les tableaux conduit inévitablement à la redondance des données (voir fonctionnalité ci-dessus).

Vérifiabilité: 2
Seule l'extension du nom de fichier permet une reconnaissance ou une validation. Le manque de normalisation rend toutefois nécessaire la présence d’une documentation précise sur le masquage des séparateurs et des retours automatiques à la ligne, l’utilisation de guillemets et le problème de la variation du nombre de champs par ligne. Le codage des caractères et la représentation des types de données utilisées doivent aussi être fixés.

Bonnes pratiques: 2
Pour des raisons historiques, les fichiers CSV sont relativement répandus au sein des archives.

Perspectives: 1
CSV est souvent éliminé au profit de formats de tableaux basés sur XML, car celui-ci résout les problèmes du masquage des caractères de contrôle, du jeu de caractères et des types de données.

Classe de formats: A
CSV est un des plus anciens formats de l’informatique.

Conclusion

De grandes quantités de données sont déjà archivées en format CSV pour tableaux. Celui-ci gardera donc son importance. Toutefois, vu l’impossibilité de conserver des relations, des métadonnées et des informations structurelles dans ce format, seuls des ensembles de données en format CSV bien documentés garderont leur valeur. Un remplacement par XML (SIARD, SQLX, OOXML ou ODF) aura aussi lieu dans le domaine de l’archivage. N’oublions pas que XML a été élaboré dans une mesure non négligeable pour répondre au besoin d’un format d’échange de données structuré et pour remplacer les solutions entièrement basées sur le texte.

Références

Cahier des charges RFC du format des fichiers CSV
https://tools.ietf.org/html/rfc4180

Bibliographie

Wikipédia: CSV
https://fr.wikipedia.org/wiki/Comma-separated_values
Wikipédia: CSV (en anglais)|
https://en.wikipedia.org/wiki/Comma-separated_values
Creativyst Software, The Comma Separated Value (CSV) File Format
http://www.creativyst.com/Doc/Articles/CSV/CSV01.shtml
Oracle SQL*Loader Tutorial
http://loader.datenbank-wissen.de/

Articles connexes

Le format CSV est aussi répandu comme format d’archivage et d’échange dans le domaine des tableurs.

Catalogue des formats de fichiers pour l'archivage version 6.2, décembre 2021