Failles de sÃ©curitÃ© liÃ©es Ã Unicode

La complexitÃ© du jeu de caractÃ¨res Unicode est source de nombreuses failles de sÃ©curitÃ©. Cet article prÃ©sente quelques failles rÃ©centes pour illustrer les problÃ¨mes qu'on peut rencontrer.

Ã‰criture bidirectionnelle (RLO et LRO)

Le premier type que je veux prÃ©senter n'est pas un bug d'Unicode, mais une fonctionalitÃ© ! On peut changer l'ordre dans lequel est Ã©crit le texte. Un dieu du CSS, Stu Nicholls, l'utilise pour afficher son adresse email en clair, alors qu'en fait elle est Ã©crite Ã l'envers dans la souce HTML ! Le style CSS est Â« unicode-bidi:bidi-override; direction: rtl; Â».

Sauf que des malins ont pensÃ© Ã utiliser cette fonctionnalitÃ© pour tromper l'Å“il humain en cachant l'extension d'un nom de fichier. L'article Deceptive file names under Vista (septembre 2007) montre comment une programme Windows (.scr) est affichÃ© comme une image JPEG (.jpg) dans Windows Vista. Windows XP ne supporte pas cette fonctionnalitÃ© et affiche donc les codes de contrÃ´le Right-to-left override (RLO, U+202E) et Left-to-right override (LRO, U+202D), montrant alors la supercherie.

Halfwidth and Fullwidth Forms

Les failles de type Â« directory traversal Â» outrepassent les mesures de sÃ©curitÃ© et permettent de lire un fichier arbitraire. En PHP, on trouve souvent des failles du type Â« index.php?page=../../../../etc/passwd Â». Les webmestres se protÃ¨gent en interdisant la chaÃ®ne Â« ../ Â» dans le nom du fichier utilisÃ©. Quelques fois, il est possible d'outrepasser cette protection en spÃ©cifiant le chemin complet du fichier. Une variante est de jouer entre les caractÃ¨res Â« / Â» et Â« \ Â» selon le systÃ¨me d'exploitation. Certains serveurs et/ou systÃ¨mes d'exploitations acceptent Ã©galement Â« .../ Â» dans le nom du fichier.

Ce type de bug est aujourd'hui connu et corrigÃ© dans la majoritÃ© des serveurs. Dumoins, c'est ce qu'on pensait jusqu'Ã cette annonce : Unicode encoding can be used to bypass intrusion detection systems (juin 2007). L'idÃ©e est d'utiliser les caractÃ¨res halfwidth et fullwidth de la plage Unicode U+FF01-U+FFEE. Le soucis est que les URL sont normalisÃ©es aprÃ¨s avoir Ã©tÃ© validÃ©es !

Exemple de normalisation (dÃ©composition canonique) avec Python 2.5 :

>>> from unicodedata import normalize
>>> char=normalize('NFKC', u'\uFF0E'); print "%r (%s)" % (char, ord(char))
u'.' (46)
>>> char=normalize('NFKC', u'\uFF0F'); print "%r (%s)" % (char, ord(char))
u'/' (47)
>>> char=normalize('NFKC', u'\uFF3C'); print "%r (%s)" % (char, ord(char))
u'\\' (92)

SÃ©quence UTF-8 invalide

Il faut savoir que 7 ans plus tÃ´t, un bug similaire avait dÃ©jÃ Ã©tÃ© dÃ©couvert dans Microsoft IIS (octobre 2000). Cette fois-ci, le problÃ¨me Ã©tait la normalisation de l'encodage UTF-8. IIS Ã©tait trop laxiste : il acceptait les sÃ©quences invalides, c'est-Ã -dire lorsqu'un code a une sÃ©quence plus longue en octets que la taille normale. Exemple : le caractÃ¨re point Â« . Â» (U+2E) s'encode Â« 0x2E Â» en UTF-8, mais peut Ã©galement Ãªtre encodÃ© (0xC0, 0xAE) (forme invalide).

Note : Le langage Java utilise d'ailleurs une forme non standard d'UTF-8 : le caractÃ¨re nul est encodÃ© volontairement (0xC0, 0x80) pour Ã©viter qu'une chaÃ®ne soit tronquÃ© par une fonction C bas niveau (telle que strcpy).

Confusion entre octet et caractÃ¨re

Depuis que le jeu de caractÃ¨res ASCII a Ã©tÃ© inventÃ©, il existe une confusion entre la notion d'octet et de caractÃ¨re. C'est encore plus vrai avec les jeux de caractÃ¨res ISO-8859. La trÃ¨s grande majoritÃ© des programmes mÃ©langent allÃ¨grement octets et caractÃ¨res sans se poser de question. D'une maniÃ¨re gÃ©nÃ©rale, ce n'est pas trop gÃªnant. On retrouve cette problÃ©matique lorsqu'on manipule du HTML : si on tronque du texte HTML Ã une position donnÃ©e, il est possible qu'on coupe en plein milieu d'une balise ou d'un caractÃ¨re Ã©crit sous la forme Â« &nom; Â». Exemple : Â« J'ai mangé ! Â» tronquÃ© au 12e caractÃ¨re donne Â« J'ai mang&ea Â».

Exemple de vulnÃ©rabilitÃ© : WordPress Charset SQL Injection Vulnerability (dÃ©cembre 2007). Le problÃ¨me apparait lorsque la base de donnÃ©e utilise un jeu de caractÃ¨re chinois : Big5 ou GBK. La fonction qui Ã©chappe les chaÃ®nes de caractÃ¨res SQL utilise addslashes() qui travaille sur des octets et non pas des caractÃ¨res. La sÃ©quence d'octets (0xB3, 0x27) est alors Ã©chappÃ©e en (0xB3, 0x5C, 0x27). Or 0xB35C est un caractÃ¨re valide en Big5, et on obtient donc une apostrophe seule !

Exemple avec Python 2.5 :

>>> user='\xB3\x27'
>>> sql=user.replace("'", "\\'")
>>> print unicode(sql, "big5")
è¨±'

Le problÃ¨me de fond est que PHP ne supporte pas Unicode. Il va falloir attendre PHP6 qui est en cours de gestation. Notez que ce genre de bug touche Ã©galement les programmes Ã©crit en C, Java ou mÃªme en Python. Bien que Python propose le type unicode, il est rarement utilisÃ© bien que complet. Le module re (expression rÃ©guliÃ¨res) supporte les expressions unicode. Python 3000 vise, entre autre, Ã encourager l'adoption d'Unicode comme type par dÃ©faut des chaÃ®nes de caractÃ¨res.

Autres bugs des implÃ©mentations d'Unicode

La bibliothÃ¨que Qt de Trolltech calculait mal la longueur des chaÃ®nes UTF-8 (il manquait un "+1") : Bugzilla Bug 269001: CVE-2007-4137 QT off by one buffer overflow (rapport de bug avec patchs pour Qt3 et Qt4, aoÃ»t 2007).

La fonction repr() du langage Python n'allouait pas assez de mÃ©moire pour les chaÃ®nes Unicode : buffer overrun in repr() for unicode strings (aoÃ»t 2006, lire aussi le CVE-2006-4980). La fonction repr() n'allouait que 6 octets par caractÃ¨re en ne considÃ©rant que la forme Â« \uXXXX Â», or la forme Â« \Uxxxxxxxx Â» peut Ãªtre nÃ©cessaire et consomme 10 octets par caractÃ¨re.

Conclusion

Unicode regorge de fonctionnalitÃ©s qui sont souvent mÃ©connues. Mal utilisÃ©es ou utilisÃ©es Ã mauvais escient, Ã§a peut faire trÃ¨s mal. Je pense qu'il manque des fonctionalitÃ©s de sÃ©curitÃ© dans les bibliothÃ¨ques Unicode. Les encodages non standards doivent Ãªtre rejettÃ©s ou une alerte doit Ãªtre dÃ©clanchÃ©e. Le module mod_security d'Apache propose ce genre de fonctionnalitÃ© : voir SecFilterCheckUnicodeEncoding et @validateUtf8Encoding. Il faudrait pouvoir dÃ©sactiver toutes les fonctionalitÃ©s Unicode et n'activer que ce dont on n'a besoin pour Ã©viter les effets de bord indÃ©sirables.

Commentaires

1. Le samedi 26 janvier 2008 à 10:31, par Toady

En ce qui concerne le caractÃ¨re '/', certains serveurs web d'une firme situÃ©e Ã 1h30 de Vancouver le lit comme '\' et inversement.

D'oÃ¹ l'obligation pour les NIDS comme Snort d'avoir des preprocesseurs qui dÃ©codent ces caractÃ¨res en fonction de ce que l'application cible fera derriÃ¨re pour ne pas Ãªtre face Ã une Ã©vasion de signatures.

En ce qui concerne la soit-disant faille *dÃ©couverte* par des *chercheurs* en *2007* sur l'utilisation de l'unicode pour bypasser des IDS Ã§a me fait doucement rigoler, parce que c'est quand mÃªme un trÃ¨s grand classique. Et tous les logiciels guignolesques concernÃ©s par cette faille ne devrait pas avoir d'autre attention du marchÃ© que celle de chercheurs voulant se faire mousser facilement.

2. Le lundi 28 janvier 2008 à 15:16, par Arfnico

FÃ©licitations pour cet article Haypo !

3. Le lundi 4 février 2008 à 14:35, par haypo

Bug UTF-8 dans libxml2

4. Le mercredi 18 février 2009 à 01:23, par haypo

Autre faille dans PostgreSQL liÃ© aux encodages et Ã MySQL :
bugs.proftpd.org/show_bug...

5. Le mardi 8 septembre 2009 à 16:58, par haypo

Faille dans PAM liÃ©e Ã Unicode (login comportant des caractÃ¨res non-ASCII) : cve.mitre.org/cgi-bin/cve...

6. Le mardi 12 octobre 2010 à 10:42, par gucci outlet store

I like your article very much,Thank you!and do you like gucci outlet online?

7. Le samedi 10 septembre 2011 à 10:14, par Ð¼Ð¾Ð½Ñ‚Ð°Ð¶ Ð¼ÐµÑ‚Ð°Ð»Ð»Ð¾ÐºÐ¾Ð½ÑÑ‚Ñ€ÑƒÐºÑ†Ð¸Ð¹

Quels sont les mots justes ... grand, trÃ¨s bonne idÃ©e

8. Le jeudi 17 novembre 2011 à 08:15, par DSLR-A900

Bonjour Ã tous! Je ne sais pas par oÃ¹ commencer, mais espÃ©rons que ce site sera utile pour moi.

9. Le dimanche 22 avril 2012 à 18:27, par ÑÐ¾ÑÐ½Ð° Ð¼ÐµÐ±ÐµÐ»ÑŒ

Es gibt einige interessante Punkte in der Zeit in diesem Artikel aber ich weiÃŸ nicht, ob ich sie alle entfernt zu Herzen zu sehen. Es gibt eine gewisse GÃ¼ltigkeit, aber ich werde halten Meinung, bis ich in sie weiter zu suchen. Guter Artikel, danke, und wir wollen mehr! Hinzu FeedBurner sowie

10. Le mercredi 9 mai 2012 à 22:46, par glass insulators for sale

Hal ini sangat true.I kehilangan berat badan saya hanya membuat perubahan dalam makanan, mengambil semua vegetarian dan rendah karbohidrat ini banyak membantu saya dan saya sarankan semua orang

Ajouter un commentaire

Les commentaires pour ce billet sont fermés.

Blog Haypo