Python Unicode

Un article de Haypo.

Version du 19 mai 2008 à 15:40 par Haypo (Discuter | Contributions)

(diff) ← Version précédente | voir la version courante (diff) | Version suivante → (diff)

CatÃ©gorie:Langage de programmation Retour Ã Python

Sommaire

1 Python et Unicode
2 Travailler en Unicode
3 Exception
4 Type str
5 Encodage
6 Conversion en ASCII (supprimer les accents)
7 Article connexions

Python et Unicode

Depuis sa version 2.0, publiÃ© en octobre 2000, Python possÃ¨de le type Â« unicode Â» qui permet de stocker du texte dans le charset Unicode. En interne, c'est un type de 16 bits (UCS-2) ou 32 bits (UCS-4) qui est utilisÃ©. On est donc limitÃ© aux codes 0 Ã 65.535 / 0 Ã 4.294.967.295. Testez avec :

>>> import sys; print sys.maxunicode
1114111

(rÃ©sultat sur Ubuntu Feisty, Python 2.5.1)

Travailler en Unicode

Avec Python 2.x, str() contient des octets et unicode() contient des caractÃ¨res. Pour travailler simplement en Unicode, il faut travailler le plus longtemps possible avec des caractÃ¨res (type 'unicode'). C'est-Ã -dire :

EntrÃ©e : les convertir le plus tÃ´t possible en unicode
Sortie : les convertir le plus tard possible en octets

Pour les fichiers : utiliser le module codecs, Â« codecs.open(filename, mode, charset) Â» convertit automatiquement les lignes d'un fichier texte.

Pour le terminal (stdin/stdout) : il faut dÃ©tecter le charset du terminal. Voir par exemple ma fonction getTerminalCharset().

Pour le reste, il faut deviner le charset. J'ai Ã©crit ma fonction minimaliste pour diffÃ©rencier ASCII, UTF-8 et ISO-8859-1 : fonction guessBytesCharset(). Pour les besoins plus lourds (diffÃ©rencier les diffÃ©rents ISO-8859-*, les charsets asiatiques, etc.) : consultez mon article DÃ©tecter un charset.

Enfin, pour la conversion en entrÃ©e, si la dÃ©tection Ã©choue, utilisez le charset "ISO-8859-1". Mais ceci risque de poser des problÃ¨mes...

Exception

La classe BaseException n'a pas de mÃ©thode __unicode__(). Du coup, unicode(Exception(u"\xE9")) appelle __str__(). Or la mÃ©thode __str__() tente de faire u"\xE9".encode("ASCII", "strict"), ce qui Ã©choue :-(

IdÃ©e pour contourner le problÃ¨me :

CrÃ©er une classe UnicodeException qui contient un attribut unicode_message
Convertir le message ASCII pour le contructeur d'Exception

ImplÃ©mentation :

class UnicodeException(Exception):
    def __init__(self, message):
        if isinstance(message, unicode):
            self.unicode_message = message
            message = message.encode('ASCII', 'replace')
        else:
            message = str(message)
            try:
                self.unicode_message = unicode(message, "utf8")
            except UnicodeEncodeError:
                self.unicode_message = unicode(message, "ISO-8859-1")
        Exception.__init__(self, message)

    def __unicode__(self):
        return self.unicode_message

Type str

Le type Â« str Â» ne devrait pas servir Ã contenir du texte. C'est un tableau d'octet et sÃ»rement pas un tableau de caractÃ¨res (contrairement au type Â« unicode Â»).

Deviner le charset utilisÃ© par un type str n'est pas une mince affaire. Voici nÃ©anmoins quelques cas particulier.

isASCII()

def isASCII(text):
    try:
        text = unicode(text, 'ASCII', 'strict')
        return True
    except UnicodeDecodeError:
        return False

Comprendre le rÃ©sultat :

False indique que text contient des valeurs supÃ©rieures ou Ã©gales Ã 128
True indique que text utilise (semble utiliser ?) le charset ASCII

isUTF8()

def isUTF8(text):
    try:
        text = unicode(text, 'UTF-8', 'strict')
        return True
    except UnicodeDecodeError:
        return False

Comprendre le rÃ©sultat :

False indique que la conversion a Ã©chouÃ©, une sÃ©quence d'octets invalide a Ã©tÃ© trouvÃ©e (chaÃ®ne tronquÃ©e ? autre charset utilisÃ© ?)
True indique que la conversion s'est bien dÃ©roulÃ©e, il y a de trÃ¨s fortes chances que la chaÃ®ne soit formatÃ©e en UTF-8

guessBytesCharset()

J'ai Ã©crit une fonction appelÃ©e guessBytesCharset() qui tente au mieux de dÃ©tecter le charset d'une chaÃ®ne binaire. On peut la trouver dans le code d'Hachoir : module hachoir_core.i18n.

Encodage

Encodage "=E9" (MIME)

>>> import re; re.sub("=([A-F0-9]{2})", lambda regs: chr(int(regs.group(1), 16)), "S=C3=A9bastien")
'S\xc3\xa9bastien'

Mais le module mimify sert exactement Ã Ã§a :-)

Encodage "%E9" (HTML)

>>> import urllib; unicode(urllib.unquote("S%E9bastien"), "ISO-8859-1")
u'S\xe9bastien'

Base64

Pour dÃ©coder des donnÃ©es encodÃ©e en base64 (ex: 'VG90bw=='), le module base64 dispose des fonctions b64encode() et b64decode().

Voir aussi la RFC 3548, The Base16, Base32, and Base64 Data Encodings.

Autres encodages

Voir aussi les modules binascii, quopri (quoted printable), uu, etc.

Conversion en ASCII (supprimer les accents)

Voir mon script unicode2ascii.py.

Article connexions

Récupérée de « http://haypo.alwaysdata.net:443/wiki/Python_Unicode »