Jeu de caractÃ¨res Unicode

Unicode est un hydre : lorsqu'on dÃ©couvre Unicode, chaque point Ã©clairci va faire surgir deux nouvelles questions ! Cet article tente de dÃ©mystifier Unicode en prÃ©sentant quelques particularitÃ©s de ce jeu de caractÃ¨res.

Unicode 5.0

Unicode est un jeu de caractÃ¨res incluant tous les autres jeux de caractÃ¨res existant : c'est un surensemble qui est donc forcÃ©ment plus gros. La derniÃ¨re version publiÃ©e date de juillet 2006 : la norme Unicode 5.0.

Nombre de caractÃ¨res :

CaractÃ¨res graphiques : 98.884 (lettres, marqueurs, chiffres, ponctuations, symboles et espaces)
Code de formatage : 140 (sÃ©parateurs de ligne et de paragraphe, sens du texte, ...)
Code de contrÃ´le : 65 (hÃ©ritage de l'ASCII)
- U+00â€“U+1F
- U+7Fâ€“U+9F
CaractÃ¨res Ã usage privÃ© : 137.468 (l'Ã©metteur et le rÃ©cepteur peuvent dÃ©finir leurs propres codes)
- U+E000â€“U+F8FF
- U+F0000â€“U+FFFFD
- U+100000â€“U+10FFFD
Codes surrogates : 2.048
- U+D800â€“U+DBFF : Low surrogates
- U+DC00â€“U+DFFF : High surrogates
- Pour UTF-16, les codes U+10000 Ã U+10FFFF sont encodÃ©s sur deux mots de 16 bits :
  - On retire 0x10000 au code : 0x10000..0x10FFFF => 0x0000..0xFFFF
  - On dÃ©coupe le rÃ©sultat en deux valeurs de 10 bits chacune
  - Finalement, le premier mot est : 0xD800 + (code-0x10000) & 0x003FF (10 bits de poids faible)
  - Et le deuxiÃ¨me mot est : 0xDC00 + ((code-0x10000) >> 10) & 0x003FF (10 bits de poids fort)
- Les surrogates sont donc des codes Unicode interdits pour Ã©viter de confondre un code avec un mot d'UTF-16
Non caractÃ¨res : 66
- Codes terminÃ©s par 0xFFFE en hexadÃ©cial : U+FFFE, U+1FFFE, ... U+10FFFE (17 codes). Codes interdits pour que le code U+FEFF puisse servir comme marqueur d'endian pour les encodages UTF-16 et UTF-32.
- Codes terminÃ©s par 0xFFFF en hexadÃ©cial : U+FFFF, U+1FFFF, ... U+10FFFF (17 codes). Peuvent Ãªtre utilisÃ© dans une implÃ©mentation d'Unicode comme Â« valeur maximale Â».
- U+FDD0â€“U+FDEF
Codes rÃ©servÃ©s : 875.441 (rÃ©servÃ©s pour des usages futurs)

Unicode 5.0 contient donc 1.114.112 codes caractÃ¨res : codes 0x000000 Ã 0x10FFFF.

Les codes 0x0000 Ã 0xFFFF constituent ce qu'on appelle le Â« Plan multilingue de base Â» (abrÃ©gÃ© BMP en anglais).

SÃ©rialisation d'Unicode

Un octet ne pouvant contenir que 256 codes diffÃ©rents, Unicode a besoin d'un encodage sur plusieurs octets pour chaque code. Il existe de nombreux encodages :

UTF-7 : mots de 7 bits (le 8e bit peut Ãªtre utilisÃ© comme bit de paritÃ©)
UTF-8 : mots de 8 bits
UTF-EBCDIC : mots de 8 bits (compatible avec le jeu de caractÃ¨re EBCDIC)
CESU-8 : mots de 8 bits (mÃ©lange entre UTF-8 et UTF-16)
UTF-16 : mots de 16 bits (UTF-16LE et UTF-16BE pour little endian et big endian)
UTF-32 : mots de 32 bits (UTF-32LE et UTF-32E)

Il existe Ã©galement les algorithmes SCSU et BOCU qui servent Ã compresser un texte Unicode sÃ©rialisÃ©.

Exemple avec Python 2.5 :

>>> u'Ã©'.encode('utf8')
'\xc3\xa9'
>>> u'Ã©'.encode('UTF-16LE')
'\xe9\x00'
>>> u'Ã©'.encode('UTF-16BE')
'\x00\xe9'

CaractÃ¨re U+AF05 :

>>> u'\uAF05'.encode('utf8')
'\xea\xbc\x85'
>>> u'\uAF05'.encode('UTF-16LE')
'\x05\xaf'
>>> u'\uAF05'.encode('UTF-16BE')
'\xaf\x05'

Encodage Punycode

L'algorithme Punycode, normalisÃ© par la RFC 3492, sert Ã convertir un nom de domaine Unicode sous forme ASCII : lettres A Ã Z, chiffres 0 Ã 9 et le caractÃ¨re Â« - Â». L'algorithme est rÃ©versible : on peut convertir un punnycode en Unicode sans perte d'information. Cet encodage est surtout utilisÃ© pour les noms de domaine Unicode (serveurs DNS) : les Internationalized Domain Names (IDN). Lire le billet de StÃ©phane Bortzmeyer sur les IDNA.

Exemple avec Python 2.5 :

>>> from encodings.idna import ToASCII, ToUnicode
>>> ToASCII(u'cafÃ©')
'xn--caf-dma'
>>> print ToUnicode('xn--caf-dma')
cafÃ©

Normalisation d'un caractÃ¨re

On peut composer un caractÃ¨re. Le caractÃ¨re Â« Ã¤ Â» peut s'Ã©crire Â« a Â» + umlaut (U+308). Il existe trois caractÃ¨res correspondant dans la table Unicode :

U+61 : Â« a Â», lettre A
U+E4 : Â« Ã¤ Â», lettre A avec umlaut
U+308 : Â« Â¨ Â», umlaut

Donc U+E4 et (U+61, U+308) sont Ã©quivalents. Il existe des outils pour normaliser selon les diffÃ©rentes formes :

NFD (Forme normale D) : dÃ©composition canonique
NFC (Forme normale C) : dÃ©composition canonique suivie d'une recomposition des caractÃ¨res prÃ©composÃ©s
NFKC (Forme normale KC) : dÃ©composition de compatibilitÃ©, c'est-Ã -dire remplace les caractÃ¨res de compatibilitÃ© par leurs Ã©quivalents
NFKD (Forme normale KD) : dÃ©composition de compatibilitÃ© suivie d'une dÃ©composition canonique

Exemple avec Python 2.5 (DÃ©compose puis Compose) :

>>> from unicodedata import normalize
>>> list(normalize('NFD', u'Ã¤'))
[u'a', u'\u0308']
>>> list(normalize('NFC', u'a\u0308'))
[u'\xe4']

Conclusion

Unicode est un sacrÃ© bordel ! Les gens habituÃ©s Ã manipuler ASCII et son jeu de caractÃ¨re ridicule de 128 codes sont perdus. MÃªme ceux habituÃ©s Ã ISO-8859-15 flambant neuf avec son euro bling-bling (â‚¬) sont perdus car ils connaissent presque les 256 codes par cÅ“ur. Unicode contient plus d'un million de codes qu'on peut Ã©crire d'un millier de maniÃ¨res diffÃ©rentes !

NÃ©anmoins, c'est un pari sur l'avenir car on peut enfin mÃ©langer sans broncher des textes dans n'importe quel langue. D'ailleurs, on peut changer l'ordre d'affichage pour les Ã©critures de droite Ã gauche et inversement. Les encodages UTF-8, UTF-16 et UTF-32 simplifient la dÃ©tection de l'encodage et sont plus simples que leurs ancÃªtres (ex: Shift JIS et ses nombreux codes de contrÃ´le). UTF-8 est le charset ultime pour l'interopÃ©rabilitÃ© car il n'a pas de problÃ¨me d'endian, est simple Ã dÃ©tecter et peu coÃ»teux en place pour l'encodage d'ISO-8859-1.

Commentaires

1. Le samedi 26 janvier 2008 à 07:54, par egan

>>Unicode contient plus d'un milliard de codes qu'on peut Ã©crire d'un millier de maniÃ¨res diffÃ©rentes !

Heu...c'est pas un million plutÃ´t ?

2. Le samedi 26 janvier 2008 à 12:26, par Mjules

Si je puis me permettre, la taille d'un mot en UTF-8 varie de 1 Ã 4 octets (8 Ã 32 bits donc). Elle n'est pas fixÃ©e Ã 8 bits.

un autre article intÃ©ressant pour comprendre les bases de l'unicode et des encodages :
http://www.joelonsoftware.com/articles/Unicode.html (anglais)
http://french.joelonsoftware.com/Articles/Unicode.html (franÃ§ais)

3. Le samedi 26 janvier 2008 à 14:29, par haypo

@egan: Oups, je sais pas compter. J'ai corrigÃ© l'article.

C'est "Punycode" avec un seul N...

L'exemple IDNA n'est pas parfait. Comme l'encodage en Punycode se fait label par label et pas globalement sur le FQDN, il faut faire :

>>> ToASCII(u'cafÃ©')
'xn--caf-dma'
>>> ToASCII(u'fr')
'fr'

Et donc la version Punycode de cafÃ©.fr est xn--caf-dma.fr

6. Le mardi 29 janvier 2008 à 01:40, par haypo

@StÃ©phane: Oups, j'ai corrigÃ© la typo dans "punycode". Je ne connaissais pas cet algorithme avant d'Ã©crire l'article, alors forcÃ©ment, j'ai fait des erreurs. J'ai aussi corrigÃ© l'exemple Python. Merci pour avoir notÃ© les coquilles ;-)

7. Le mardi 29 janvier 2008 à 01:47, par haypo

@Mjules: Je connaissais dÃ©jÃ l'article, mais je trouve que son titre est trompeur. L'article est loin d'Ãªtre concis. En fait, je ne connais aucun article concis qui explique bien ce qu'est Unicode. En mÃªme Unicode est tellement vaste qu'il est trÃ¨s difficile d'Ãªtre concis. Faut-il parler des ligatures ou des idÃ©ogrammes inuits dans un texte prÃ©sentant Unicode ? Faut-il dÃ©tailler l'encodage UTF-8 ou juste le citer ? Je me suis dÃ©jÃ essayÃ© Ã plusieurs reprises d'Ã©crire un article sur Unicode, mais je n'ai jamais rÃ©ussi. Voir : Codage_des_caractÃ¨res_et_caractÃ¨res_spÃ©ciaux.

Â« je ne connais aucun article concis qui explique bien ce qu'est Unicode. Â»

Une des raisons est qu'Unicode est trÃ¨s riche et que tout utilisateur n'a pas besoin des mÃªmes informations. Par exemple, celui qui dÃ©veloppe un SGBD ou un serveur Internet qui gÃ¨re l'Unicode se moque typiquement du rendu sur Ã©cran et donc peut ignorer complÃ¨tement des questions comme le Bidi ou les caractÃ¨res combinants.

De mÃªme, dans les langages de programmations sÃ©rieux (Python, Haskell, mais pas PHP ou Ruby) le type de donnÃ©es "caractÃ¨re" est un caractÃ¨re Unicode (pas un octet) et le programmeur peut donc complÃ¨tement ignorer les questions d'encodage (sauf au moment des E/S mais il utilise alors typiquement une bibliothÃ¨que toute faite).

La meilleure prÃ©sentation d'Unicode suit un modÃ¨le en couches. C'est celle que j'ai utilisÃ©e pour mon article pour JRES : Unicode : traiter toutes les Ã©critures du monde

9. Le vendredi 28 mars 2008 à 12:41, par Forth

Unicode n'est pas sÃ©rieux car il est Ã©thno-centrÃ©; pour votre culture monsieur Bortzmeyer : Han unification

10. Le mardi 12 octobre 2010 à 10:42, par gucci outlet store

I like your article very much,Thank you!and do you like gucci outlet online?

Ajouter un commentaire

Les commentaires pour ce billet sont fermés.

Blog Haypo