Python Unicode

Un article de Haypo.

CatÃ©gorie:Langage de programmation Retour Ã Python

Je suis en train d'Ã©crire un livre sur la programmation avec Unicode, en anglais.

Sommaire

1 Python et Unicode
2 ConfÃ©rence Pycon FR 2009
3 Travailler en Unicode
4 Deviner le jeu de caractÃ¨res
- 4.1 Terminal
- 4.2 SystÃ¨me de fichier
- 4.3 isASCII()
- 4.4 isUTF8()
- 4.5 guessBytesCharset()
5 Ne pas mÃ©langer !
6 Des fois Ã§a marche !
7 Exception
8 Type str
9 Encodage
- 9.1 Encodage "=E9" (MIME)
- 9.2 Encodage "%E9" (HTML)
- 9.3 Base64
- 9.4 Autres encodages
10 Conversion en ASCII (supprimer les accents)
11 Base de donnÃ©es
12 Texte encodÃ© deux fois en UTF-8
13 Python3
14 OS encoding(s)
15 En pratique avec Python3
- 15.1 Jeu de caractÃ¨res par dÃ©faut
- 15.2 Noms de fichiers et variables d'environnement
- 15.3 TextIOWrapper, stdin, stdout et stderr
- 15.4 Arguments de la ligne de commande
- 15.5 Fonctions du module locale
16 En pratique avec Python2
- 16.1 Jeu de caractÃ¨res par dÃ©faut
- 16.2 Noms de fichiers et variables d'environnement
- 16.3 io.TextIOWrapper
- 16.4 Fonctions du module locale
17 En pratique avec Python3 (code source)
18 wchar_t
19 Voir aussi
- 19.1 Lire aussi
20 Article connexes

[modifier] Python et Unicode

Depuis sa version 2.0, publiÃ© en octobre 2000, Python possÃ¨de le type Â« unicode Â» qui permet de stocker du texte dans le charset Unicode. En interne, c'est un type de 16 bits (UCS-2) ou 32 bits (UCS-4) qui est utilisÃ©. On est donc limitÃ© aux codes 0 Ã 65.535 / 0 Ã 4.294.967.295. Testez avec :

>>> import sys; print sys.maxunicode
1114111

(rÃ©sultat sur Ubuntu Feisty, Python 2.5.1)

[modifier] ConfÃ©rence Pycon FR 2009

J'ai donnÃ© une confÃ©rence fin mai 2009 sur Unicode :

Voir la vidÃ©o de la confÃ©rence Comprendre les erreurs Unicode
Diaporama (pdf) de la confÃ©rence

[modifier] Travailler en Unicode

Avec Python 2.x, str() contient des octets et unicode() contient des caractÃ¨res. Pour travailler simplement en Unicode, il faut travailler le plus longtemps possible avec des caractÃ¨res (type 'unicode'). C'est-Ã -dire :

EntrÃ©e : les convertir le plus tÃ´t possible en unicode
Sortie : les convertir le plus tard possible en octets

Pour les fichiers : utiliser le module codecs, Â« codecs.open(filename, mode, charset) Â» convertit automatiquement les lignes d'un fichier texte.

[modifier] Deviner le jeu de caractÃ¨res

[modifier] Terminal

Pour dÃ©tecter le jeu de caractÃ¨res du terminal, utilisez la fonction getTerminalCharset().

[modifier] SystÃ¨me de fichier

sys.getfilesystemencoding() indique le jeu de caractÃ¨res par dÃ©faut du systÃ¨me de fichier.

[modifier] isASCII()

def isASCII(text):
    try:
        text = unicode(text, 'ASCII', 'strict')
        return True
    except UnicodeDecodeError:
        return False

Comprendre le rÃ©sultat :

False indique que text contient des valeurs supÃ©rieures ou Ã©gales Ã 128
True indique que text utilise (semble utiliser ?) le charset ASCII

[modifier] isUTF8()

def isUTF8(text):
    try:
        text = unicode(text, 'UTF-8', 'strict')
        return True
    except UnicodeDecodeError:
        return False

Comprendre le rÃ©sultat :

False indique que la conversion a Ã©chouÃ©, une sÃ©quence d'octets invalide a Ã©tÃ© trouvÃ©e (chaÃ®ne tronquÃ©e ? autre charset utilisÃ© ?)
True indique que la conversion s'est bien dÃ©roulÃ©e, il y a de trÃ¨s fortes chances que la chaÃ®ne soit formatÃ©e en UTF-8

[modifier] guessBytesCharset()

J'ai Ã©crit ma fonction minimaliste pour diffÃ©rencier ASCII, UTF-8 et ISO-8859-1 : fonction guessBytesCharset().

Pour les besoins plus lourds (diffÃ©rencier les diffÃ©rents ISO-8859-*, les jeux de caractÃ¨res asiatiques, etc.) : consultez mon article DÃ©tecter un charset.

Si la dÃ©tection Ã©choue, utilisez le charset "ISO-8859-1". Mais ceci risque de poser des problÃ¨mes...

[modifier] Ne pas mÃ©langer !

MÃ©lange des octets et des caractÃ¨res peut dÃ©clencher des erreurs inattendues. Exemple :

>>> u"a" + "Ã©"
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0: ordinal not in range(128)

Erreur typique : quand on mÃ©lange les types str et unicode, Python va tenter de convertir les chaÃ®nes d'octets (str) en utilisant le charset le plus restrictif qu'il existe : ASCII en mode strict !

>>> unicode("Ã©", "ASCII", "strict")
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0: ordinal not in range(128)

Solution : convertir toutes les variables en utilisant le charset adÃ©quat :

Si c'est une chaÃ®ne Ã©crite directement dans le code, lui ajouter le prÃ©fixe u : remplacer Â« "Ã©" Â» par Â« u"Ã©" Â». Il faudra peut-Ãªtre rajouter le charset au dÃ©but de votre fichier source, du genre :

# -*- coding: utf8 -*-

Si la chaÃ®ne vient d'une base de donnÃ©es : configurer la base pour qu'elle donne de l'unicode ou convertir manuellement en utilisant le charset utilisÃ© par la base de donnÃ©es
Si la chaÃ®ne vient de raw_input() : utiliser le charset du terminal (voir plus bas dans cet article)
D'une maniÃ¨re gÃ©nÃ©rale : rÃ©cupÃ©rer le bon charset et Ã©crire Â« chaine = unicode(chaine, charset) Â»

[modifier] Des fois Ã§a marche !

Malheureusement pour nous, pauvres programmeurs, des fois les mÃ©langes str/unicode fonctionnent ! C'est quand la chaÃ®ne d'octets ne contient que des codes dans l'interface [0; 127] : charset ASCII. Exemple :

>>> print u"salut %s !" % "victor"
salut victor !

Ce comportement laisse penser que Ã§a marche, or Ã§a ne fonctionne pas toujours :

>>> print u"salut %s !" % "hervÃ©"
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 4: ordinal not in range(128)

Solution : comme toujours, s'assurer qu'on ne manipule que de l'Unicode :

(prenom est par exemple saisi au clavier par l'utilisateur)
>>> prenom = unicode(prenom, "utf8")
>>> print u"salut %s !" % prenom
salut hervÃ© !

Attention Ã bien saisir le bon charset sous peine d'avoir un problÃ¨me au moment de la conversion :

(...)
>>> prenom = unicode(prenom, "utf8")
UnicodeDecodeError: 'utf8' codec can't decode byte 0xff in position 0: unexpected code byte
(...)

[modifier] Exception

La classe BaseException n'a pas de mÃ©thode __unicode__(). Du coup, unicode(Exception(u"\xE9")) appelle __str__(). Or la mÃ©thode __str__() tente de faire u"\xE9".encode("ASCII", "strict"), ce qui Ã©choue :-(

IdÃ©e pour contourner le problÃ¨me :

CrÃ©er une classe UnicodeException qui contient un attribut unicode_message
Convertir le message ASCII pour le contructeur d'Exception

ImplÃ©mentation :

class UnicodeException(Exception):
    def __init__(self, message):
        if isinstance(message, unicode):
            self.unicode_message = message
            message = message.encode('ASCII', 'replace')
        else:
            message = str(message)
            try:
                self.unicode_message = unicode(message, "utf8")
            except UnicodeEncodeError:
                self.unicode_message = unicode(message, "ISO-8859-1")
        Exception.__init__(self, message)

    def __unicode__(self):
        return self.unicode_message

[modifier] Type str

Le type Â« str Â» ne devrait pas servir Ã contenir du texte. C'est un tableau d'octet et sÃ»rement pas un tableau de caractÃ¨res (contrairement au type Â« unicode Â»).

[modifier] Encodage

[modifier] Encodage "=E9" (MIME)

Pour dÃ©coder la chaÃ®ne "S=C3=A9bastien", on peut utiliser la regex du pauvre :

>>> import re; re.sub("=([A-F0-9]{2})", lambda regs: chr(int(regs.group(1), 16)), "S=C3=A9bastien")
'S\xc3\xa9bastien'

Mais le module mimify sert exactement Ã Ã§a :-)

[modifier] Encodage "%E9" (HTML)

Pour dÃ©coder la chaÃ®ne "S%E9bastien", on peut utiliser :

>>> import urllib; unicode(urllib.unquote("S%E9bastien"), "ISO-8859-1")
u'S\xe9bastien'

[modifier] Base64

Pour dÃ©coder des donnÃ©es encodÃ©e en base64 (ex: 'VG90bw=='), le module base64 dispose des fonctions b64encode() et b64decode().

Voir aussi la RFC 3548, The Base16, Base32, and Base64 Data Encodings.

[modifier] Autres encodages

Voir aussi les modules binascii, quopri (quoted printable), uu, etc.

[modifier] Conversion en ASCII (supprimer les accents)

Voir mon script unicode2ascii.py.

Voir Ã©galement le billet de Peter Bengtsson : Unicode strings to ASCII... nicely.

[modifier] Base de donnÃ©es

MySQL
- db = MySQLdb.connect(..., use_unicode="True", charset="utf8")
- Une table MySQL a un jeu de caractÃ¨res : Â« CREATE TABLE .... [DEFAULT] CHARACTER SET charset_name [COLLATE collation_name] Â» (depuis MySQL 4.1)
- MySQL n'aime pas "utf-8", utiliser utf8
- Lire le chapitre Chapitre 10. Jeux de caractÃ¨res et Unicode de la documentation MySQL
PostgreSQL
- connection.encoding
- Unicode handling
LDAP (python-ldap)
- LDAP parle UTF-8 depuis la version 3 (RFC 4511)
- en fÃ©vrier 2011, python-ldap ne supportait pas encore le type unicode de Python2 pour consever la compatibilitÃ© LDAP version 2 qui exige un encodage explicite

[modifier] Texte encodÃ© deux fois en UTF-8

Fonction pour convertir du texte encodÃ© deux fois en UTF-8 :

def decodeUtf8Utf8(octets):
  return octets.decode("utf8").encode("latin1").decode("utf8")

Exemple d'utilisation :

>>> print decodeUtf8Utf8('\xc3\x83\xc2\xa9')
Ã©

Si vous avez une chaÃ®ne unicode :

>>> print decodeUtf8Utf8(u'\xc3\x83\xc2\xa9'.encode("latin1"))
Ã©

[modifier] Python3

PEP 383: Non-decodable Bytes in System Character Interfaces
Issue #5915: Implement PEP 383, Non-decodable Bytes in System Character Interfaces.
- Commit 72313
Issue #3672: Reject surrogates in utf-8 codec; add surrogates error handler.
- Commit 72208
Issue #3187: os.listdir can return byte strings

[modifier] OS encoding(s)

OS data:

command line arguments
environment variables
standard input, output and error
filenames

Mac OS X:

filenames: UTF-8
command line arguments:
- locale encoding for Python < XXX
- UTF-8 for Python > XXX (changeset 45079ad1e260, issue #4388)

Windows:

filenames: MBCS (ANSI code page)

UNIX:

filenames: locale encoding, setlocale(LC_CTYPE, ""); encoding = nl_langinfo(CODESET)

[modifier] En pratique avec Python3

[modifier] Jeu de caractÃ¨res par dÃ©faut

Exemple d'utilisation : b"abc".decode() et "abc".encode()
sys.getdefaultencoding() == 'utf8'
Bien qu'il existe sys.setdefaultencoding(), on ne peut pas modifier le jeu de caractÃ¨res par dÃ©faut (un jeu de caractÃ¨res autre que "utf8" Ã©met une erreur)

[modifier] Noms de fichiers et variables d'environnement

Jeu de caractÃ¨res sys.getdefaultencoding(), "surrogateescape" error handler
sys.getfilesystemencoding()
- Windows : "mbcs"
- Mac OS X : "utf-8"
- Autre : nl_langinfo(CODESET), ou "utf8" si nl_langinfo() Ã©choue ou n'existe pas
(sys.setfilesystemencoding() : fonction supprimÃ©e par le module site)

Pour les variables d'environnement, Python 3.2 a en plus os.environb et os.getenvb() pour rÃ©cupÃ©rer les variables dans le type bytes (avant qu'elles soient dÃ©codÃ©es).

[modifier] TextIOWrapper, stdin, stdout et stderr

os.device_encoding(fd) :

None is fd n'est pas un TTY
Windows : GetConsoleCP() si fd==0, GetConsoleOutputCP() si fd in (1, 2), None sinon
POSIX : nl_langinfo(CODESET) (sans modifier la locale)

Choix du jeu de caractÃ¨res par io.TextIOWrapper() si l'encodage n'est pas spÃ©cifiÃ© :

os.device_encoding(buffer.fileno())
ou locale.getpreferredencoding()
ou "ascii"

sys.stdin, sys.stdout, sys.stderr :

Utilise la variable d'environnement PYTHONIOENCODING si elle est dÃ©finie. Exemples :
- PYTHONIOENCODING=utf8
- PYTHONIOENCODING=utf8:backslashreplace
Exception : si stdout n'est pas un terminal (sys.stdout.isatty() == False), utilise "ascii". Pareil pour stderr.
- http://bugs.python.org/issue7745
- http://www.mail-archive.com/python-dev@python.org/msg44650.html

[modifier] Arguments de la ligne de commande

L'algorithme ressemble Ã Ã§a :

# argv est une liste de bytes
encoding = locale.getpreferredencoding()
sys.argv = [arg.decode(encoding, 'surrogateescape') for arg in argv]

Les arguments sont dÃ©codÃ©s selon le jeu de caractÃ¨res de la locale, et les caractÃ¨res ne pouvant Ãªtre dÃ©codÃ©s sont stockÃ©s sous forme de surrogates.

char** argv est converti en wchar_t** par _Py_char2wchar() qui utilise mbstowcs() ou mbrtowc()+surrogates), puis en liste de chaÃ®nes unicode par PySys_SetArgv() qui utilise PyUnicode_FromWideChar().

encoding = locale.getpreferredencoding()
argv_bytes = [arg.encode(encoding, "surrogateescape") for arg in sys.argv]

[modifier] Fonctions du module locale

locale.getpreferredencoding() :

Windows : _locale._getdefaultlocale()[1]
POSIX avec CODESET : modifie la locale avec setlocale(LC_TYPE, "") (sauf si l'argument do_setlocale est dÃ©fini Ã False) puis appelle nl_langinfo(CODESET). Sous Mac OS X, renvoie "utf-8" le rÃ©sultat est None

Lecture du jeu de caractÃ¨res avec locale._getdefaultlocale() :

_locale._getdefaultlocale() si la fonction existe
Sinon cherche la premiÃ¨re variable d'environnement dÃ©finie parmis LC_ALL, LC_CTYPE, LANG, LANGUAGE : utilise "C" si aucune n'est dÃ©finie. Puis devine le jeu de caractÃ¨res Ã partir de la locale :
- Si la locale contient un point : ce qui est Ã©crit aprÃ¨s le point ("fr_FR.utf8" => UTF-8)
- ISO-8859-15 si la locale se termine par "..."@euro"
- None sinon

[modifier] En pratique avec Python2

Exemple d'utilisation : "abc".decode() et u"abc".encode()
sys.getdefaultencoding() == 'ascii' par dÃ©faut, mais c'est modifiable avec sys.setdefaultencoding() (bien que trÃ¨s dÃ©conseillÃ© : nombreux effets de bord !)

[modifier] Noms de fichiers et variables d'environnement

Jeu de caractÃ¨res sys.getdefaultencoding() (mode strict)
sys.getfilesystemencoding()
- Windows : "mbcs"
- Mac OS X : "utf-8"
- Autre : nl_langinfo(CODESET), ou "utf8" si nl_langinfo() Ã©choue ou n'existe pas

[modifier] io.TextIOWrapper

locale.getpreferredencoding()
ou "ascii"

[modifier] Fonctions du module locale

locale.getpreferredencoding() :

Windows : _locale._getdefaultlocale()[1]
POSIX avec CODESET : modifie la locale avec setlocale(LC_TYPE, "") (sauf si l'argument do_setlocale est dÃ©fini Ã False) puis appelle nl_langinfo(CODESET)
POSIX sans CODESET : getdefaultlocale()[1]

[modifier] En pratique avec Python3 (code source)

a :

PyUnicode_GetDefaultEncoding(), PyUnicode_SetDefaultEncoding
- En Python : sys.getdefaultencoding()
- PyUnicode_GetDefaultEncoding() est utilisÃ© quand encoding==NULL, exemple Python : b"abc".decode()
- Python3 : valeur utf8, non modifiable
sys.getfilesystemencoding()
- Python/pythonrun.c : Py_InitializeEx() initialise Py_FileSystemDefaultEncoding avec nl_langinfo(CODESET)
- Python/bltinmodule.c : Py_FileSystemDefaultEncoding
- DÃ©faut : "mbcs" sous Windows", "utf8" sous Mac OS X, None sinon

b :

os.environ
- Modules/posixmodule.c : convertenviron()
- Windows : PyUnicode_FromWideChar()
- POSIX : PyUnicode_Decode(..., Py_FileSystemDefaultEncoding, "surrogateescape")

c :

locale.getpreferredencoding()
- Windows : _locale._getdefaultlocale()[1]
- POSIX avec CODESET : setlocale(LC_TYPE, ""); nl_langinfo(CODESET); setlocale(LC_TYPE, oldloc) ou "utf8"
- POSIX sans CODESET : getdefaultlocale()[1] ou "ascii", parse les variables d'environnement
os.device_encoding(buffer.fileno())
- Windows : GetConsoleCP() si fd==0, GetConsoleOutputCP() si fd in (1, 2), None sinon
- POSIX : nl_langinfo(CODESET)
io.TextIOWrapper() si encoding==None :
- os.device_encoding(buffer.fileno())
- ou locale.getpreferredencoding()
- ou "ascii"

d :

sys.stdin, sys.stdout, sys.stderr
- sys.stdin.encoding, sys.stdout.encoding, sys.stderr.encoding
- Python/pythonrun.c : initstdio()
- Variable d'environement PYTHONIOENCODING : PYTHONIOENCODING=utf8 ou PYTHONIOENCODING=utf8:backslashreplace
- Appelle io.TextIOWrapper(..., encoding, errors, ...)

Python 3.2 sous Linux :

>>> locale.getpreferredencoding()
'UTF-8'
>>> sys.getdefaultencoding()
'utf-8'
>>> sys.getfilesystemencoding()
'utf-8'
>>> sys.stdout.encoding
'UTF-8'

Python 3.2 sous Linux avec LANG= :

>>> locale.getpreferredencoding()
'ANSI_X3.4-1968'
>>> sys.getdefaultencoding()
'utf-8'
>>> sys.getfilesystemencoding()
'ascii'
>>> sys.stdout.encoding
'ANSI_X3.4-1968'

[modifier] wchar_t

Debian Sid sur x86 (32 bits): sizeof(wchar_t) == 4
Sous Windows, sizeof(wchar_t) == 2 : utilise UTF-16

[modifier] Voir aussi

[modifier] Lire aussi

Charsets et encoding (et Python)
(en) Unicode HOWTO : Guide de la documentation officielle Python
(en) Python Unicode Tutorial
(en) Unicode data in Django

[modifier] Article connexes

Récupérée de « http://haypo.alwaysdata.net:443/wiki/Python_Unicode »

Python Unicode

Un article de Haypo.

Sommaire

[modifier] Python et Unicode

[modifier] ConfÃ©rence Pycon FR 2009

[modifier] Travailler en Unicode

[modifier] Deviner le jeu de caractÃ¨res

[modifier] Terminal

[modifier] SystÃ¨me de fichier

[modifier] isASCII()

[modifier] isUTF8()

[modifier] guessBytesCharset()

[modifier] Ne pas mÃ©langer !

[modifier] Des fois Ã§a marche !

[modifier] Exception

[modifier] Type str

[modifier] Encodage

[modifier] Encodage "=E9" (MIME)

[modifier] Encodage "%E9" (HTML)

[modifier] Base64

[modifier] Autres encodages

[modifier] Conversion en ASCII (supprimer les accents)

[modifier] Base de donnÃ©es

[modifier] Texte encodÃ© deux fois en UTF-8

[modifier] Python3

[modifier] OS encoding(s)

[modifier] En pratique avec Python3

[modifier] Jeu de caractÃ¨res par dÃ©faut

[modifier] Noms de fichiers et variables d'environnement

[modifier] TextIOWrapper, stdin, stdout et stderr

[modifier] Arguments de la ligne de commande

[modifier] Fonctions du module locale

[modifier] En pratique avec Python2

[modifier] Jeu de caractÃ¨res par dÃ©faut

[modifier] Noms de fichiers et variables d'environnement

[modifier] io.TextIOWrapper

[modifier] Fonctions du module locale

[modifier] En pratique avec Python3 (code source)

[modifier] wchar_t

[modifier] Voir aussi

[modifier] Lire aussi

[modifier] Article connexes

Affichages

Outils personnels

Navigation

projets

outils

Rechercher

Boîte à outils