Python Unicode

Un article de Haypo.

(Différences entre les versions)

Version du 17 août 2007 à 12:54

CatÃ©gorie:Langage de programmation Retour Ã Python

Sommaire

1 Python et Unicode
2 Type str
3 Encodage
4 Supprimer les accents
5 Article connexions

Python et Unicode

Depuis sa version 2.0, publiÃ© en octobre 2000, Python possÃ¨de le type Â« unicode Â» qui permet de stocker du texte dans le charset Unicode. En interne, c'est un type de 16 bits (UCS-2) ou 32 bits (UCS-4) qui est utilisÃ©. On est donc limitÃ© aux codes 0 Ã 65.535 / 0 Ã 4.294.967.295.

Type str

Le type Â« str Â» ne devrait pas servir Ã contenir du texte. C'est un tableau d'octet et sÃ»rement pas un tableau de caractÃ¨res (contrairement au type Â« unicode Â»).

Deviner le charset utilisÃ© par un type str n'est pas une mince affaire. Voici nÃ©anmoins quelques cas particulier.

isASCII()

def isASCII(text):
    try:
        text = unicode(text, 'ASCII', 'strict')
        return True
    except UnicodeDecodeError:
        return False

Comprendre le rÃ©sultat :

False indique que text contient des valeurs supÃ©rieures ou Ã©gales Ã 128
True indique que text utilise (semble utiliser ?) le charset ASCII

isUTF8()

def isUTF8(text):
    try:
        text = unicode(text, 'UTF-8', 'strict')
        return True
    except UnicodeDecodeError:
        return False

Comprendre le rÃ©sultat :

False indique que la conversion a Ã©chouÃ©, une sÃ©quence d'octets invalide a Ã©tÃ© trouvÃ©e (chaÃ®ne tronquÃ©e ? autre charset utilisÃ© ?)
True indique que la conversion s'est bien dÃ©roulÃ©e, il y a de trÃ¨s fortes chances que la chaÃ®ne soit formatÃ©e en UTF-8

guessBytesCharset()

J'ai Ã©crit une fonction appelÃ©e guessBytesCharset() qui tente au mieux de dÃ©tecter le charset d'une chaÃ®ne binaire. On peut la trouver dans le code d'Hachoir : module hachoir_core.i18n.

Encodage

Encodage MIME

Pour dÃ©coder la chaÃ®ne "S=C3=A9bastien", on peut utiliser la regex du pauvre :

>>> import re; re.sub("=([A-F0-9]{2})", lambda regs: chr(int(regs.group(1), 16)), "S=C3=A9bastien")
'S\xc3\xa9bastien'

Mais le module mimify sert exactement Ã Ã§a :-)

Base64

Pour dÃ©coder des donnÃ©es encodÃ©e en base64 (ex: 'VG90bw=='), le module base64 dispose des fonctions b64encode() et b64decode().

Voir aussi la RFC 3548, The Base16, Base32, and Base64 Data Encodings.

Autres encodages

Voir aussi les modules binascii, quopri (quoted printable), uu, etc.

Supprimer les accents

Liens:

Mon script unicode2ascii.py
Billet de Peter Bengtsson: Unicode strings to ASCII... nicely

Article connexions

Récupérée de « http://haypo.alwaysdata.net:443/wiki/Python_Unicode »

 Liens:
 * Mon script '''[http://www.haypocalc.com/perso/prog/python/unicode2ascii.py unicode2ascii.py]'''
-* Mon script [http://www.haypocalc.com/perso/prog/python/any2ascii.py any2ascii.py] (ancien script, incomplet)
 * Billet de Peter Bengtsson: ''[http://www.peterbe.com/plog/unicode-to-ascii Unicode strings to ASCII... nicely]''

Python Unicode

Un article de Haypo.

Version du 17 août 2007 à 12:54

Sommaire

Python et Unicode

Type str

isASCII()

isUTF8()

guessBytesCharset()

Encodage

Encodage MIME

Base64

Autres encodages

Supprimer les accents

Article connexions

Affichages

Outils personnels

Navigation

projets

outils

Rechercher

Boîte à outils