Katalog archivischer Dateiformate Version 5.1, Dez. 2017

Anmerkungen zur Zeichencodierung


Zeichensätze und Zeichencodierung


Wir unterscheiden zwischen Zeichensätzen und Zeichencodierungen


Traditionellerweise fielen Zeichensätze und Zeichencodierungen zusammen, indem direkt ein Zeichen in eine Bitsequenz abgebildet wurde. Dies gilt unter anderem für


Bei Unicode werden Zeichensatz und Zeichencodierung getrennt. Unicode definiert in erster Linie die verschiedenen Zeichen in den verschiedenen Schriften (bisher über 100'000) und ordnet ihnen einen sogenannten code point, einen Zeichencode zu. Dieser Zeichencode kann danach in verschiedener Weise in eine Bitsequenz umgesetzt werden:


Referenzen

ASCII

American National Standards Institute (ANSI) X3.4-1967 (ASCII-1967)

ISO/IEC 646:1991, Information technology — ISO 7-bit coded character set for information interchange
https://www.iso.org/standard/4777.html
[kostenpflichtig]

ISO 8859

ISO/IEC 8859-1:1998, Information technology — 8-bit single-byte coded graphic character sets — Part 1: Latin alphabet No. 1
https://www.iso.org/standard/28245.html
[kostenpflichtig]
http://std.dkuug.dk/jtc1/sc2/wg3/docs/n411.pdf
[kostenlose Draft-Version]

Unicode

Unicode 10.0.0
http://www.unicode.org/versions/Unicode10.0.0/
UTF-8
http://tools.ietf.org/html/rfc3629

Literatur

Spolsky, Joel: The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)
http://www.joelonsoftware.com/articles/Unicode.html

Tero, Paul: Unicode, UTF8 & Character Sets: The Ultimate Guide
Smashing Magazine, 2012
https://www.smashingmagazine.com/2012/06/all-about-unicode-utf8-character-sets/

Unicode

UTF-8
http://www.utf-8.com/
Vergleich von UTF-8 mit anderen UNICODE-Zeichencodierungen
http://en.wikipedia.org/wiki/UTF-8#Advantages_and_disadvantages
last update: georg.buechler - Tue, 12 Dec 2017 [09:15:07]
Copyright © by Koordinationsstelle für die dauerhafte Archivierung elektronischer Unterlagen
Copyright © by Centre de coordination pour l'archivage à long terme de documents électroniques