Python Unicode

Un article de Haypo.

Version du 26 avril 2010 à 11:12 par Haypo (Discuter | Contributions)

(diff) ← Version précédente | voir la version courante (diff) | Version suivante → (diff)

CatÃ©gorie:Langage de programmation Retour Ã Python

Python et Unicode

Depuis sa version 2.0, publiÃ© en octobre 2000, Python possÃ¨de le type Â« unicode Â» qui permet de stocker du texte dans le charset Unicode. En interne, c'est un type de 16 bits (UCS-2) ou 32 bits (UCS-4) qui est utilisÃ©. On est donc limitÃ© aux codes 0 Ã 65.535 / 0 Ã 4.294.967.295. Testez avec :

>>> import sys; print sys.maxunicode
1114111

(rÃ©sultat sur Ubuntu Feisty, Python 2.5.1)

ConfÃ©rence Pycon FR 2009

J'ai donnÃ© une confÃ©rence fin mai 2009 sur Unicode :

Voir la vidÃ©o de la confÃ©rence Comprendre les erreurs Unicode
Diaporama (pdf) de la confÃ©rence

Travailler en Unicode

Avec Python 2.x, str() contient des octets et unicode() contient des caractÃ¨res. Pour travailler simplement en Unicode, il faut travailler le plus longtemps possible avec des caractÃ¨res (type 'unicode'). C'est-Ã -dire :

EntrÃ©e : les convertir le plus tÃ´t possible en unicode
Sortie : les convertir le plus tard possible en octets

Pour les fichiers : utiliser le module codecs, Â« codecs.open(filename, mode, charset) Â» convertit automatiquement les lignes d'un fichier texte.

Deviner le jeu de caractÃ¨res

Terminal

Pour dÃ©tecter le jeu de caractÃ¨res du terminal, utilisez la fonction getTerminalCharset().

SystÃ¨me de fichier

sys.getfilesystemencoding() indique le jeu de caractÃ¨res par dÃ©faut du systÃ¨me de fichier.

isASCII()

def isASCII(text):
    try:
        text = unicode(text, 'ASCII', 'strict')
        return True
    except UnicodeDecodeError:
        return False

Comprendre le rÃ©sultat :

False indique que text contient des valeurs supÃ©rieures ou Ã©gales Ã 128
True indique que text utilise (semble utiliser ?) le charset ASCII

isUTF8()

def isUTF8(text):
    try:
        text = unicode(text, 'UTF-8', 'strict')
        return True
    except UnicodeDecodeError:
        return False

Comprendre le rÃ©sultat :

False indique que la conversion a Ã©chouÃ©, une sÃ©quence d'octets invalide a Ã©tÃ© trouvÃ©e (chaÃ®ne tronquÃ©e ? autre charset utilisÃ© ?)
True indique que la conversion s'est bien dÃ©roulÃ©e, il y a de trÃ¨s fortes chances que la chaÃ®ne soit formatÃ©e en UTF-8

guessBytesCharset()

J'ai Ã©crit ma fonction minimaliste pour diffÃ©rencier ASCII, UTF-8 et ISO-8859-1 : fonction guessBytesCharset().

Pour les besoins plus lourds (diffÃ©rencier les diffÃ©rents ISO-8859-*, les jeux de caractÃ¨res asiatiques, etc.) : consultez mon article DÃ©tecter un charset.

Si la dÃ©tection Ã©choue, utilisez le charset "ISO-8859-1". Mais ceci risque de poser des problÃ¨mes...

Ne pas mÃ©langer !

MÃ©lange des octets et des caractÃ¨res peut dÃ©clencher des erreurs inattendues. Exemple :

>>> u"a" + "Ã©"
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0: ordinal not in range(128)

Erreur typique : quand on mÃ©lange les types str et unicode, Python va tenter de convertir les chaÃ®nes d'octets (str) en utilisant le charset le plus restrictif qu'il existe : ASCII en mode strict !

>>> unicode("Ã©", "ASCII", "strict")
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0: ordinal not in range(128)

Solution : convertir toutes les variables en utilisant le charset adÃ©quat :

Si c'est une chaÃ®ne Ã©crite directement dans le code, lui ajouter le prÃ©fixe u : remplacer Â« "Ã©" Â» par Â« u"Ã©" Â». Il faudra peut-Ãªtre rajouter le charset au dÃ©but de votre fichier source, du genre :

# -*- coding: utf8 -*-

Si la chaÃ®ne vient d'une base de donnÃ©es : configurer la base pour qu'elle donne de l'unicode ou convertir manuellement en utilisant le charset utilisÃ© par la base de donnÃ©es
Si la chaÃ®ne vient de raw_input() : utiliser le charset du terminal (voir plus bas dans cet article)
D'une maniÃ¨re gÃ©nÃ©rale : rÃ©cupÃ©rer le bon charset et Ã©crire Â« chaine = unicode(chaine, charset) Â»

Des fois Ã§a marche !

Malheureusement pour nous, pauvres programmeurs, des fois les mÃ©langes str/unicode fonctionnent ! C'est quand la chaÃ®ne d'octets ne contient que des codes dans l'interface [0; 127] : charset ASCII. Exemple :

>>> print u"salut %s !" % "victor"
salut victor !

Ce comportement laisse penser que Ã§a marche, or Ã§a ne fonctionne pas toujours :

>>> print u"salut %s !" % "hervÃ©"
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 4: ordinal not in range(128)

Solution : comme toujours, s'assurer qu'on ne manipule que de l'Unicode :

(prenom est par exemple saisi au clavier par l'utilisateur)
>>> prenom = unicode(prenom, "utf8")
>>> print u"salut %s !" % prenom
salut hervÃ© !

Attention Ã bien saisir le bon charset sous peine d'avoir un problÃ¨me au moment de la conversion :

(...)
>>> prenom = unicode(prenom, "utf8")
UnicodeDecodeError: 'utf8' codec can't decode byte 0xff in position 0: unexpected code byte
(...)

Exception

La classe BaseException n'a pas de mÃ©thode __unicode__(). Du coup, unicode(Exception(u"\xE9")) appelle __str__(). Or la mÃ©thode __str__() tente de faire u"\xE9".encode("ASCII", "strict"), ce qui Ã©choue :-(

IdÃ©e pour contourner le problÃ¨me :

CrÃ©er une classe UnicodeException qui contient un attribut unicode_message
Convertir le message ASCII pour le contructeur d'Exception

ImplÃ©mentation :

class UnicodeException(Exception):
    def __init__(self, message):
        if isinstance(message, unicode):
            self.unicode_message = message
            message = message.encode('ASCII', 'replace')
        else:
            message = str(message)
            try:
                self.unicode_message = unicode(message, "utf8")
            except UnicodeEncodeError:
                self.unicode_message = unicode(message, "ISO-8859-1")
        Exception.__init__(self, message)

    def __unicode__(self):
        return self.unicode_message

Type str

Le type Â« str Â» ne devrait pas servir Ã contenir du texte. C'est un tableau d'octet et sÃ»rement pas un tableau de caractÃ¨res (contrairement au type Â« unicode Â»).

Encodage

Encodage "=E9" (MIME)

Pour dÃ©coder la chaÃ®ne "S=C3=A9bastien", on peut utiliser la regex du pauvre :

>>> import re; re.sub("=([A-F0-9]{2})", lambda regs: chr(int(regs.group(1), 16)), "S=C3=A9bastien")
'S\xc3\xa9bastien'

Mais le module mimify sert exactement Ã Ã§a :-)

Encodage "%E9" (HTML)

Pour dÃ©coder la chaÃ®ne "S%E9bastien", on peut utiliser :

>>> import urllib; unicode(urllib.unquote("S%E9bastien"), "ISO-8859-1")
u'S\xe9bastien'

Base64

Pour dÃ©coder des donnÃ©es encodÃ©e en base64 (ex: 'VG90bw=='), le module base64 dispose des fonctions b64encode() et b64decode().

Voir aussi la RFC 3548, The Base16, Base32, and Base64 Data Encodings.

Autres encodages

Voir aussi les modules binascii, quopri (quoted printable), uu, etc.

Conversion en ASCII (supprimer les accents)

Voir mon script unicode2ascii.py.

Voir Ã©galement le billet de Peter Bengtsson : Unicode strings to ASCII... nicely.

Base de donnÃ©es

MySQL
- db = MySQLdb.connect(..., use_unicode="True", charset="utf8")
- Une table MySQL a un jeu de caractÃ¨res : Â« CREATE TABLE .... [DEFAULT] CHARACTER SET charset_name [COLLATE collation_name] Â» (depuis MySQL 4.1)
- MySQL n'aime pas "utf-8", utiliser utf8
- Lire le chapitre Chapitre 10. Jeux de caractÃ¨res et Unicode de la documentation MySQL

Texte encodÃ© deux fois en UTF-8

Fonction pour convertir du texte encodÃ© deux fois en UTF-8 :

def decodeUtf8Utf8(octets):
  return octets.decode("utf8").encode("latin1").decode("utf8")

Exemple d'utilisation :

>>> print decodeUtf8Utf8('\xc3\x83\xc2\xa9')
Ã©

Si vous avez une chaÃ®ne unicode :

>>> print decodeUtf8Utf8(u'\xc3\x83\xc2\xa9'.encode("latin1"))
Ã©

Python3

PEP 383: Non-decodable Bytes in System Character Interfaces
Issue #5915: Implement PEP 383, Non-decodable Bytes in System Character Interfaces.
- Commit 72313
Issue #3672: Reject surrogates in utf-8 codec; add surrogates error handler.
- Commit 72208
Issue #3187: os.listdir can return byte strings

En pratique avec Python3

Exemple d'utilisation : b"abc".decode()
sys.getdefaultencoding()
sys.setdefaultencoding()
Python3 : "utf8" (non modifiable)

Nom de fichiers et variables d'environnement

Jeu de caractÃ¨res sys.getdefaultencoding(), "surrogateescape" error handler
sys.getfilesystemencoding()
- Windows : "mbcs"
- Mac OS X : "utf-8"
- Autre : nl_langinfo(CODESET), ou "utf8" si nl_langinfo() Ã©choue ou n'existe pas

locales, TextIOWrapper et sys.std*

locale.getpreferredencoding() :

Windows : _locale._getdefaultlocale()[1]
POSIX avec CODESET : modifie la locale avec setlocale(LC_TYPE, "") (sauf si l'argument do_setlocale est dÃ©fini Ã False) puis appelle nl_langinfo(CODESET). Sous Mac OS X, renvoie "utf-8" le rÃ©sultat est None

Lecture du jeu de caractÃ¨res avec locale._getdefaultlocale() :

_locale._getdefaultlocale() si la fonction existe
Sinon cherche la premiÃ¨re variable d'environnement dÃ©finie parmis LC_ALL, LC_CTYPE, LANG, LANGUAGE : utilise "C" si aucune n'est dÃ©finie. Puis devine le jeu de caractÃ¨res Ã partir de la locale :
- Si la locale contient un point : ce qui est Ã©crit aprÃ¨s le point ("fr_FR.utf8" => UTF-8)
- ISO-8859-15 si la locale se termine par "..."@euro"
- None sinon

os.device_encoding(fd) :

- Windows : GetConsoleCP() si fd==0, GetConsoleOutputCP() si fd in (1, 2), None sinon
- POSIX : nl_langinfo(CODESET) (sans modifier la locale)

os.device_encoding(buffer.fileno())
ou locale.getpreferredencoding()
ou "ascii"

sys.stdin, sys.stdout, sys.stderr :

Si la variable d'environnement PYTHONIOENCODING est dÃ©finie, l'utilise (ex: "PYTHONIOENCODING=utf8" ou "PYTHONIOENCODING=utf8:backslashreplace")

En pratique avec Python3 (code source)

a :

PyUnicode_GetDefaultEncoding(), PyUnicode_SetDefaultEncoding
- En Python : sys.getdefaultencoding()
- PyUnicode_GetDefaultEncoding() est utilisÃ© quand encoding==NULL, exemple Python : b"abc".decode()
- Python3 : valeur utf8, non modifiable
sys.getfilesystemencoding()
- Python/pythonrun.c : Py_InitializeEx() initialise Py_FileSystemDefaultEncoding avec nl_langinfo(CODESET)
- Python/bltinmodule.c : Py_FileSystemDefaultEncoding
- DÃ©faut : "mbcs" sous Windows", "utf8" sous Mac OS X, None sinon

b :

os.environ
- Modules/posixmodule.c : convertenviron()
- Windows : PyUnicode_FromWideChar()
- POSIX : PyUnicode_Decode(..., Py_FileSystemDefaultEncoding, "surrogateescape")

c :

locale.getpreferredencoding()
- Windows : _locale._getdefaultlocale()[1]
- POSIX avec CODESET : setlocale(LC_TYPE, ""); nl_langinfo(CODESET); setlocale(LC_TYPE, oldloc) ou "utf8"
- POSIX sans CODESET : getdefaultlocale()[1] ou "ascii", parse les variables d'environnement
os.device_encoding(buffer.fileno())
- Windows : GetConsoleCP() si fd==0, GetConsoleOutputCP() si fd in (1, 2), None sinon
- POSIX : nl_langinfo(CODESET)
io.TextIOWrapper() si encoding==None :
- os.device_encoding(buffer.fileno())
- ou locale.getpreferredencoding()
- ou "ascii"

d :

sys.stdin, sys.stdout, sys.stderr
- sys.stdin.encoding, sys.stdout.encoding, sys.stderr.encoding
- Python/pythonrun.c : initstdio()
- Variable d'environement PYTHONIOENCODING : PYTHONIOENCODING=utf8 ou PYTHONIOENCODING=utf8:backslashreplace
- Appelle io.TextIOWrapper(..., encoding, errors, ...)

Python 3.2 sous Linux :

>>> locale.getpreferredencoding()
'UTF-8'
>>> sys.getdefaultencoding()
'utf-8'
>>> sys.getfilesystemencoding()
'utf-8'
>>> sys.stdout.encoding
'UTF-8'

Python 3.2 sous Linux avec LANG= :

>>> locale.getpreferredencoding()
'ANSI_X3.4-1968'
>>> sys.getdefaultencoding()
'utf-8'
>>> sys.getfilesystemencoding()
'ascii'
>>> sys.stdout.encoding
'ANSI_X3.4-1968'

Voir aussi

Article connexes

Récupérée de « http://haypo.alwaysdata.net:443/wiki/Python_Unicode »