Wir unterscheiden zwischen Zeichensätzen und Zeichencodierungen
Traditionellerweise fielen Zeichensätze und Zeichencodierungen zusammen, indem direkt ein Zeichen in eine Bitsequenz abgebildet wurde. Dies gilt unter anderem für
Bei Unicode werden Zeichensatz und Zeichencodierung getrennt. Unicode definiert in erster Linie die verschiedenen Zeichen in den verschiedenen Schriften (bisher über 100'000) und ordnet ihnen einen sogenannten code point, einen Zeichencode zu. Dieser Zeichencode kann danach in verschiedener Weise in eine Bitsequenz umgesetzt werden:
ASCII
American National Standards Institute (ANSI) X3.4-1967 (ASCII-1967)
ISO/IEC 646:1991, Information technology — ISO 7-bit coded character set for information interchange
iso.org/standard/4777.html
[kostenpflichtig]
ISO 8859
ISO/IEC 8859-1:1998, Information technology — 8-bit single-byte coded graphic character sets — Part 1: Latin alphabet No. 1
iso.org/standard/28245.html
[kostenpflichtig]
std.dkuug.dk/jtc1/sc2/wg3/docs/n411.pdf
[kostenlose Draft-Version]
Unicode
Unicode 13.0.0
unicode.org/versions/Unicode13.0.0/
UTF-8
tools.ietf.org/html/rfc3629
Spolsky, Joel: The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)
joelonsoftware.com/articles/Unicode.html
Tero, Paul: Unicode, UTF8 & Character Sets: The Ultimate Guide
Smashing Magazine, 2012
smashingmagazine.com/2012/06/all-about-unicode-utf8-character-sets/
Unicode
UTF-8
utf-8.com/
Vergleich von UTF-8 mit anderen UNICODE-Zeichencodierungen
en.wikipedia.org/wiki/UTF-8#Advantages_and_disadvantages
Katalog archivischer Dateiformate | Version 7.0, Juni 2024 |