SÃ©curitÃ© informatique - janvier 2008

La complexitÃ© du jeu de caractÃ¨res Unicode est source de nombreuses failles de sÃ©curitÃ©. Cet article prÃ©sente quelques failles rÃ©centes pour illustrer les problÃ¨mes qu'on peut rencontrer.

Ã‰criture bidirectionnelle (RLO et LRO)

Le premier type que je veux prÃ©senter n'est pas un bug d'Unicode, mais une fonctionalitÃ© ! On peut changer l'ordre dans lequel est Ã©crit le texte. Un dieu du CSS, Stu Nicholls, l'utilise pour afficher son adresse email en clair, alors qu'en fait elle est Ã©crite Ã l'envers dans la souce HTML ! Le style CSS est Â« unicode-bidi:bidi-override; direction: rtl; Â».

Sauf que des malins ont pensÃ© Ã utiliser cette fonctionnalitÃ© pour tromper l'Å“il humain en cachant l'extension d'un nom de fichier. L'article Deceptive file names under Vista (septembre 2007) montre comment une programme Windows (.scr) est affichÃ© comme une image JPEG (.jpg) dans Windows Vista. Windows XP ne supporte pas cette fonctionnalitÃ© et affiche donc les codes de contrÃ´le Right-to-left override (RLO, U+202E) et Left-to-right override (LRO, U+202D), montrant alors la supercherie.

Halfwidth and Fullwidth Forms

Les failles de type Â« directory traversal Â» outrepassent les mesures de sÃ©curitÃ© et permettent de lire un fichier arbitraire. En PHP, on trouve souvent des failles du type Â« index.php?page=../../../../etc/passwd Â». Les webmestres se protÃ¨gent en interdisant la chaÃ®ne Â« ../ Â» dans le nom du fichier utilisÃ©. Quelques fois, il est possible d'outrepasser cette protection en spÃ©cifiant le chemin complet du fichier. Une variante est de jouer entre les caractÃ¨res Â« / Â» et Â« \ Â» selon le systÃ¨me d'exploitation. Certains serveurs et/ou systÃ¨mes d'exploitations acceptent Ã©galement Â« .../ Â» dans le nom du fichier.

Ce type de bug est aujourd'hui connu et corrigÃ© dans la majoritÃ© des serveurs. Dumoins, c'est ce qu'on pensait jusqu'Ã cette annonce : Unicode encoding can be used to bypass intrusion detection systems (juin 2007). L'idÃ©e est d'utiliser les caractÃ¨res halfwidth et fullwidth de la plage Unicode U+FF01-U+FFEE. Le soucis est que les URL sont normalisÃ©es aprÃ¨s avoir Ã©tÃ© validÃ©es !

Exemple de normalisation (dÃ©composition canonique) avec Python 2.5 :

>>> from unicodedata import normalize
>>> char=normalize('NFKC', u'\uFF0E'); print "%r (%s)" % (char, ord(char))
u'.' (46)
>>> char=normalize('NFKC', u'\uFF0F'); print "%r (%s)" % (char, ord(char))
u'/' (47)
>>> char=normalize('NFKC', u'\uFF3C'); print "%r (%s)" % (char, ord(char))
u'\\' (92)

SÃ©quence UTF-8 invalide

Il faut savoir que 7 ans plus tÃ´t, un bug similaire avait dÃ©jÃ Ã©tÃ© dÃ©couvert dans Microsoft IIS (octobre 2000). Cette fois-ci, le problÃ¨me Ã©tait la normalisation de l'encodage UTF-8. IIS Ã©tait trop laxiste : il acceptait les sÃ©quences invalides, c'est-Ã -dire lorsqu'un code a une sÃ©quence plus longue en octets que la taille normale. Exemple : le caractÃ¨re point Â« . Â» (U+2E) s'encode Â« 0x2E Â» en UTF-8, mais peut Ã©galement Ãªtre encodÃ© (0xC0, 0xAE) (forme invalide).

Note : Le langage Java utilise d'ailleurs une forme non standard d'UTF-8 : le caractÃ¨re nul est encodÃ© volontairement (0xC0, 0x80) pour Ã©viter qu'une chaÃ®ne soit tronquÃ© par une fonction C bas niveau (telle que strcpy).

Confusion entre octet et caractÃ¨re

Depuis que le jeu de caractÃ¨res ASCII a Ã©tÃ© inventÃ©, il existe une confusion entre la notion d'octet et de caractÃ¨re. C'est encore plus vrai avec les jeux de caractÃ¨res ISO-8859. La trÃ¨s grande majoritÃ© des programmes mÃ©langent allÃ¨grement octets et caractÃ¨res sans se poser de question. D'une maniÃ¨re gÃ©nÃ©rale, ce n'est pas trop gÃªnant. On retrouve cette problÃ©matique lorsqu'on manipule du HTML : si on tronque du texte HTML Ã une position donnÃ©e, il est possible qu'on coupe en plein milieu d'une balise ou d'un caractÃ¨re Ã©crit sous la forme Â« &nom; Â». Exemple : Â« J'ai mangé ! Â» tronquÃ© au 12e caractÃ¨re donne Â« J'ai mang&ea Â».

Exemple de vulnÃ©rabilitÃ© : WordPress Charset SQL Injection Vulnerability (dÃ©cembre 2007). Le problÃ¨me apparait lorsque la base de donnÃ©e utilise un jeu de caractÃ¨re chinois : Big5 ou GBK. La fonction qui Ã©chappe les chaÃ®nes de caractÃ¨res SQL utilise addslashes() qui travaille sur des octets et non pas des caractÃ¨res. La sÃ©quence d'octets (0xB3, 0x27) est alors Ã©chappÃ©e en (0xB3, 0x5C, 0x27). Or 0xB35C est un caractÃ¨re valide en Big5, et on obtient donc une apostrophe seule !

Exemple avec Python 2.5 :

>>> user='\xB3\x27'
>>> sql=user.replace("'", "\\'")
>>> print unicode(sql, "big5")
è¨±'

Le problÃ¨me de fond est que PHP ne supporte pas Unicode. Il va falloir attendre PHP6 qui est en cours de gestation. Notez que ce genre de bug touche Ã©galement les programmes Ã©crit en C, Java ou mÃªme en Python. Bien que Python propose le type unicode, il est rarement utilisÃ© bien que complet. Le module re (expression rÃ©guliÃ¨res) supporte les expressions unicode. Python 3000 vise, entre autre, Ã encourager l'adoption d'Unicode comme type par dÃ©faut des chaÃ®nes de caractÃ¨res.

Autres bugs des implÃ©mentations d'Unicode

La bibliothÃ¨que Qt de Trolltech calculait mal la longueur des chaÃ®nes UTF-8 (il manquait un "+1") : Bugzilla Bug 269001: CVE-2007-4137 QT off by one buffer overflow (rapport de bug avec patchs pour Qt3 et Qt4, aoÃ»t 2007).

La fonction repr() du langage Python n'allouait pas assez de mÃ©moire pour les chaÃ®nes Unicode : buffer overrun in repr() for unicode strings (aoÃ»t 2006, lire aussi le CVE-2006-4980). La fonction repr() n'allouait que 6 octets par caractÃ¨re en ne considÃ©rant que la forme Â« \uXXXX Â», or la forme Â« \Uxxxxxxxx Â» peut Ãªtre nÃ©cessaire et consomme 10 octets par caractÃ¨re.

Conclusion

Unicode regorge de fonctionnalitÃ©s qui sont souvent mÃ©connues. Mal utilisÃ©es ou utilisÃ©es Ã mauvais escient, Ã§a peut faire trÃ¨s mal. Je pense qu'il manque des fonctionalitÃ©s de sÃ©curitÃ© dans les bibliothÃ¨ques Unicode. Les encodages non standards doivent Ãªtre rejettÃ©s ou une alerte doit Ãªtre dÃ©clanchÃ©e. Le module mod_security d'Apache propose ce genre de fonctionnalitÃ© : voir SecFilterCheckUnicodeEncoding et @validateUtf8Encoding. Il faudrait pouvoir dÃ©sactiver toutes les fonctionalitÃ©s Unicode et n'activer que ce dont on n'a besoin pour Ã©viter les effets de bord indÃ©sirables.

Cet article explique comment analyser un fichier d'origine peu sÃ»re (ex: Internet) ou dont le format est inconnu (rÃ©tro-ingÃ©nierie). Il n'est sÃ»rement pas exhaustif, mais liste divers outils bien pratiques pour ce genre de travail.

Avertissement

Lorsqu'on traite un fichier d'origine inconnue, il faut Ãªtre sur ses gardes. Il se peut que le fichier attaque volontairement les outils d'analyse citÃ©s dans cet article. Les virus sont connus pour cracher les dÃ©bogueurs et/ou changer leur propre comportement lorsqu'ils sont analysÃ©s. Travaillez sur une machine dÃ©diÃ©e aux tests (ex: machine virtuelle), ou bien avec des privilÃ¨ges minimaux (ex: machine coupÃ©e du rÃ©seau).

DÃ©tecter le type d'un fichier inconnu

Quand on reÃ§oit un fichier binaire d'un type inconnu, le programme le plus utile est file. Il dÃ©termine le format du fichier Ã partir d'une importante base de signature. Il sait extraire certaines mÃ©ta-donnÃ©es (dimension d'une image, version du format, etc.) et sait Ã©galement faire la diffÃ©rence entre les sous-formats (tel que AVI ou WAVE pour le format RIFF, et Theora et Vorbis pour Ogg).

D'autres programmes peuvent servir pour identifier le format ou plutÃ´t extraire les mÃ©ta-donnÃ©es :

hachoir-metadata : supporte un grand nombre de formats de fichiers
extract : supporte un grand nombre de formats de fichiers
Kaa : images, sons et vidÃ©os
identify : images, fait parti de l'excellente suite Image Magick

Analyse manuelle d'un fichier binaire

Le programme strings sert Ã extraire des chaÃ®nes de caractÃ¨res d'un fichier binaire. Il vous faudra peut-Ãªtre tester diffÃ©rentes options (encodages des chaÃ®nes) pour obtenir satisfaction. Souvent, strings donne beaucoup de faux positifs (la sortie est assez bruitÃ©e).

Un Ã©diteur hexadÃ©cimal est toujours pratique pour rechercher visuellement des motifs, des chaÃ®nes de caractÃ¨res, informations cachÃ©es, etc. J'utilise Â« hexdump -C fichier Â» ou bien khexedit (programme KDE).

Quand un fichier semble vraiment trop alÃ©atoire, il se peut qu'il soit compressÃ© et/ou chiffrÃ©. J'ai Ã©crit un petit script Â« entropy.py Â» qui calcule l'entropie des symboles (mot de 8 bits) d'un fichier. Quelques exemples :

Programme EXE PE : 4,11 bits/symbole
Page HTML : 4,89 bits/symbole
Document PDF : 7,75 bits/symbole
Image JPEG et PNG : 7,87 et 7,82 bits/symbole
Archive gzip (.tar.gz) et bzip2 (.tar.bz2) : 7,99 bits/symbole

Au delÃ de 7,5 bits/symbole, il y a de fortes chances que le fichier contienne des champs compressÃ©s. C'est le cas dans les exemples, mais cet outil n'est qu'une mesure empirique.

Pour trouver les blocs compressÃ©s, une solution est de tenter de dÃ©compresser Ã partir du 1er octet, puis du 2e, etc. Le script Â« find_deflate.py Â» implÃ©mente justement cet algorithme, lent mais il fonctionne.

Enfin, l'outil hachoir-subfile permet de rechercher les fichiers contenu dans un fichier binaire en recherchant des motifs (marqueur de dÃ©but, marqueur de fin) et en vÃ©rifiant que le fichier trouvÃ© est valide (pour limiter les faux positifs). Il existe beaucoup d'outils similaires tels que Photorec et Scalpel, ou encore TestDisk et Sleuth Kit qui sont eux dÃ©diÃ©s Ã l'analyse d'images de disque dur.

Analyse statique d'un programme

Ayant majoritairement travaillÃ© sous Linux, je ne parlerai que des programmes ELF. L'outil objdump affiche de nombreuses informations sur un fichier ELF tel que ses sections, les symboles (objdump -T fichier) et sait dÃ©sassembler du code. L'outil nm liste les symboles des bibliothÃ¨ques statiques (extension du fichier Â« .a Â»). L'outil ldd liste les bibliothÃ¨ques importÃ©s par un programme ou une bibliothÃ¨que avec le chemin complet qui sera utilisÃ©. Enfin, elfsh est une suite complÃ¨te d'outils pour l'analyse de fichier ELF.

Analyse dynamique

Analyser un programme sans l'exÃ©cuter ne permet que d'extraire de maigres informations. Il est toujours plus instructif de l'exÃ©cuter. Il existe de nombreux outils pour tracer un programme. strace affiche les appels systÃ¨mes. ltrace affiche les appels aux bibliothÃ¨ques dynamiques, mais sait Ã©galement tracer les appels systÃ¨mes. gdb est le grand classique parmis les dÃ©bogueurs, boÃ®te Ã tout faire.

Pendant l'exÃ©cution du programme, Â« lsof -p pid Â» affiche les fichiers qu'il a ouvert et Â« netstat Â» permet d'afficher les connexions rÃ©seaux.

auditd : lire l'article Surveiller les connexions avec auditd de devloop
truss (BSD et Solaris)
Dtrace pour Solaris et BSD
systrace
Frysk
SystemTap

J'ai Ã©crit un binding Python pour ptrace qui permet d'Ã©crire facilement son propre outil d'audit Ã la maniÃ¨re de strace ou ltrace. Enfin, mon bref article Syscall contient mes divers notes sur les appels systÃ¨mes Linux.

Sites Internet

Pour en savoir plus sur le sujet, voici quelques sites trÃ¨s instructifs :

forensicswiki.org : Forensic
Digital Forensic Research Workshop (DFRWS) : Groupe de travail sur le forensic qui lance rÃ©guliÃ¨rement des concours trÃ¨s intÃ©ressants

lun	mar	mer	jeu	ven	sam	dim
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Blog Haypo

Failles de sÃ©curitÃ© liÃ©es Ã Unicode

Ã‰criture bidirectionnelle (RLO et LRO)

Halfwidth and Fullwidth Forms

SÃ©quence UTF-8 invalide

Confusion entre octet et caractÃ¨re

Autres bugs des implÃ©mentations d'Unicode

Conclusion

Analyser un fichier binaire ou un programme inconnu

Avertissement

DÃ©tecter le type d'un fichier inconnu

Analyse manuelle d'un fichier binaire

Analyse statique d'un programme

Analyse dynamique

Sites Internet

Calendrier

Rechercher

Catégories

Archives

Liens

Syndication