DE FR IT

XML

Informations générales

Titre Extensible Markup Language
Catégorie Données structurées et semi-structurées
Abréviation XML
Extension de fichier .xml
Mime Type application/xml, text/xml
Pronom PUID fmt/101 (XML 1.0), fmt/1776 (XML 1.1)
Version XML 1.0 [1] et XML 1.1 [2] suivent la recommandation du W3C (World Wide Web Consortium)

  

Description

XML est un format de texte pur qui permet de structurer et d'échanger des données. Il est lisible par l'homme et par la machine. Un XML est constitué d'éléments de données qui se composent de données structurelles (balises XML) et d’une charge utile (attributs, valeurs). XML est le format le plus important et le plus répandu pour l'échange de données structurées et semi-structurées. Une description détaillée du format est disponible dans [3] et dans [4]. Actuellement, il existe deux versions de XML (XML 1.0 [1] XML 1.1 [2]), basées sur une recommandation du consortium W3. Une représentation simplifiée de la structure d'un XML se trouve dans [1] (voir également l'illustration 1) et une liste des principales propriétés dans l'article du Cfa sur JSON.

Illustration 1 : structure d’un XML, illustration tirée de [3].

    

Evaluation

Ouverture du format: 4
XML est spécifié, respectivement recommandé, par le World Wide Web Consortium (W3C). Le W3C n'est pas un organisme de normalisation officiel. Toutefois, ses recommandations sont considérées de facto comme des normes.

Licence libre: 4
Il n’existe aucune licence sur ce format texte.

Diffusion: 4
XML est très largement diffusé, notamment parce que de nombreux autres formats répandus sont basés sur XML ou utilisent des fichiers XML (p. ex. SVG, DOCX, ODF, SIARD).

Fonctionnalités: 4
Il est possible de migrer sans problème vers le format XML le contenu et la structure de purs formats de texte brut (plain text) pour les données structurées et semi-structurées (p. ex. CSV, JSON, etc.). La mise en page peut subir des modifications, mais cela n'a pas d'importance pour l'archivage de texte brut. Comme XML peut représenter des structures de données, des types de données et des relations complexes, il est utilisé de manière standard pour l'archivage de données structurées issues de bases de données en tant que partie intégrante du format d'archivage de bases de données SIARD. 

Implémentation: 4
Le XML peut être créé et lu avec n'importe quel éditeur de texte. Tous les navigateurs web peuvent traiter le XML. Une validation est également possible avec des éditeurs tels que Notepad++, Altova XMLSpy ou des environnements de développement de logiciels.

Densité de mémorisation: 3
Le taux de compression (sans perte) des fichiers XML peut varier fortement (facteur 2-20), en fonction de la taille du fichier et de la redondance des données. Les fichiers XML peuvent être compressés avec un facteur d'environ 3-5 en moyenne. La compression basée sur des schémas permettrait de compresser les données structurelles du XML de plusieurs facteurs supplémentaires [1]. De même, la densité de mémorisation du XML pourrait être augmentée en encodant un XML non pas en tant que texte, mais en tant que format binaire (Binary XML comme EXI). Ces deux approches ne se sont pas encore imposées au cours de la dernière décennie.

Vérifiabilité: 3

Il existe de nombreux outils pour valider des fichiers XML (p. ex. Notepad++). Lors de la validation, on vérifie si la syntaxe respecte les points suivants de la recommandation W3C (voir des exemples : https://www.ibm.com/docs/en/b2bis?topic=syntax-xml-rules):

  • Le fichier XML possède un élément racine dans lequel les autres éléments sont intégrés.
  • Les éléments XML ont des balises ouvrantes et fermantes
  • Les balises XML tiennent compte de la casse
  • Les éléments XML doivent être correctement imbriqués les uns dans les autres
  • Les attributs XML doivent être entourés de guillemets

En plus d'une validation du format, une validation du schéma peut également être effectuée si un fichier XSD (XML Schema Definition File) est disponible. Le fichier XSD définit aussi bien les types de données utilisés que la structure d'un XML. Un fichier DTD peut également être présent à la place d'un XSD. Un DTD ne peut toutefois pas être utilisé pour la validation, car il ne contient que des informations sur les types d'éléments autorisés.

Bonnes pratiques: 4
Pur format de texte ou format de texte brut, le XML est largement accepté comme format d'archivage. Dans les directives relatives aux formats de certaines institutions d'archivage, il est exigé que le fichier de schéma (XSD) soit fourni avec le XML pour l'archivage à long terme.

Perspectives: 3
Le format XML est solidement établi et ne subira très probablement plus de modifications. La dernière modification du format a eu lieu en 2008. XML restera donc un format approprié pour l'archivage à long terme.

Classe de formats: A
XML est un ancien format connu de l’informatique.

 

Analyse

Une analyse comparative de XML et JSON se trouve dans l'article du Cfa consacré à JSON.

  

Conclusion

XML répond parfaitement à la plupart des exigences archivistiques (à l'exception notable de la conservation de la mise en page) et est donc indiscutable en tant que format d'archivage. Pour les données structurées, le XML est actuellement préférable à d'autres formats de fichiers tels que JSON ou CSV, car il offre davantage de possibilités pour la description des données (voir l'article du Cfa sur JSON).

    

Références

Extensible Markup Language (XML) 1.0 (Fifth Edition) 
https://www.w3.org/TR/xml/

Extensible Markup Language (XML) 1.1 (Second Edition) 
https://www.w3.org/TR/2006/REC-xml11-20060816/

    

Bibliographie

[1] World Wide Web Consortium (W3C), „Extensible Markup Language (XML) 1.0 (Fifth Edition),“ 
https://www.w3.org/TR/xml/

[2] World Wide Web Consortium, „Extensible Markup Language (XML) 1.1 (Second Edition),“ 
https://www.w3.org/TR/2006/REC-xml11-20060816/

[3] Wikipedia, „Extensible Markup Language,“ 
https://fr.wikipedia.org/wiki/Extensible_Markup_Language

[4] S. Schinkinger, „XML-Kompression und optische Codierung für den Transfer von Geschäftsdokumenten,“ Universität Passau, Passau, 2016.

    

Catalogue des formats de fichiers pour l'archivage version 7.0, juin 2024