Python - avril 2007 - Blog Haypo

mardi 24 avril 2007

Imposer des limites arbitraires

Par haypo, mardi 24 avril 2007 à 01:20 :: Python

Durant mes essais de fuzzing, j'ai compris assez vite qu'espÃ©rer Ã©crire un programme parfait n'est qu'un idÃ©al. PlutÃ´t que de corriger les erreurs, je pense qu'il vaut mieux Ã©crire du code tolÃ©rant aux erreurs. Je veux dire par lÃ que le programme continuera Ã fonctionner mÃªme si une procÃ©dure Ã©choue.

Utiliser les exceptions

On peut utiliser pour Ã§a le couple try/except en Python. Exemple trivial :

value = (...)
try:
   print "Date : %s" % datetime.datetime.fromtimestamp(value)
except ValueError:
   print "Date invalide (%r) !" % value

Mais le fuzzing mÃ¨ne souvent Ã une situation d'Ã©puisement (monopolisation) des ressources : votre programme va manger tout le temps processeur, toute la mÃ©moire, remplir le disque dur, utiliser toute sa pile, etc. J'ai alors cherchÃ© comment dÃ©tecter ces situations de crise. D'ailleurs elles ne doivent pas Ãªtre vue comme critiques mais normales et il faut les avoir Ã l'esprit en Ã©crivant un programme. Effectivement, les ressources sont limitÃ©es : il faut apprendre Ã partager.

Limiter la mÃ©moire

Sous Linux, on peut utiliser resource.setrlimit(RLIMIT_AS, ...). Si la mÃ©moire totale dÃ©passe max_mem, une exception MemoryError est Ã©mise par Python.

J'ai implÃ©mentÃ© une fonction limitedMemory() qui va limiter temporairement la mÃ©moire : lire memory.py d'hachoir_core. L'erreur apparait si la mÃ©moire grossit de la quantitÃ© d'octets indiquÃ©e. Il suffit alors d'utiliser Â« try: limitedMemory(maxmem, ...) except MemoryError: ... Â».

Limiter le temps processeur

Pour Ã©viter que le programme reste bloquÃ© au mÃªme endroit pendant un temps excessif (cas typique : une boucle infinie), il faut pouvoir appeler une fonction avec une durÃ©e maximale. Sous Linux, on peut utiliser au choix : time.alarm() ou resource.setrlimit(RLIMIT_CPU, ...). Ã€ noter que pour la seconde solution, les pauses (time.sleep()) et le temps passÃ© dans le noyau ne sont pas pris en compte : il vaut donc mieux utiliser une alarme. Une alarme dÃ©clanche un signal SIGALRM alors que RLIMIT_CPU va gÃ©nÃ©rer un signal SIGXCPU.

J'ai implÃ©mentÃ© les deux mÃ©thodes dans la fonction limitedTime(sec) : lire timeout.py d'hachoir_core.

Lorsque c'est possible, il vaut mieux utiliser des fonctions offrant dÃ©jÃ cette fonctionnalitÃ© comme par exemple la fonction select().

Limiter la pile

En testant dpkg, j'ai rÃ©ussi Ã le planter avec Â« COLUMNS=10000000 dpkg -l Â». AprÃ¨s investigation, il s'est avÃ©rÃ© que l'erreur venait de la libc (chose qui semblait impensable Ã mes yeux). En creusant encore, j'ai vu que vfprintf() utilisait massiment la pile pour Ã©crire la sortie de dpkg (qui configure stdout pour ne pas utiliser de tampon).

Bref, j'ai cherchÃ© Ã voir s'il Ã©tait possible d'attraper l'erreur Â« Ã©puisement de la pile Â». Et bien sÃ»r que oui : c'est possible ! Par contre, quand la pile est hors-service, hors de question d'utiliser printf() ou autre fonction succeptible de rÃ©utiliser la pile. Linux permet d'utiliser une pile dÃ©diÃ©e aux gestionnaires de signaux. Ah lÃ lÃ , il est quand mÃªme fort ce systÃ¨me d'exploitation, hein !

Les fonctions clÃ©s sont sigaltstack() pour crÃ©er une pile dÃ©diÃ©e Ã notre gestionnaire de signal, sigaction() pour appeler notre fonction quand le signal SIGSEGV est Ã©mis, setjmp()/longjmp() pour quitter le code boguÃ© et revenir Ã la Â« borne de sauvegarde Â» (renseignÃ©e par setjmp()).

Exemple d'implÃ©mentation : stack.c.

En rÃ©unissant tous ces Ã©lements (try/except, limiter la mÃ©moire, temps et pile), je pense qu'on peut commencer Ã Ã©crire des programmes robustes. Bien sÃ»r, rien ne vaut un audit minutieux du code source.

aucun commentaire :: aucun trackback

jeudi 12 avril 2007

Mes correctifs Python intÃ©grÃ©s dans le trunk officiel

Par haypo, jeudi 12 avril 2007 à 00:13 :: Python

La nuit porte conseil. J'ai continuÃ© Ã traquer les bugs que j'avais trouvÃ© dans Python (rappel : plantage de Python lorsque la mÃ©moire est Ã©puisÃ©e) et j'en ai trouvÃ© un autre (comparaison d'un entier court et d'un entier long). Je les ai isolÃ©s et corrigÃ©s.

J'ai alors Ã©crit un rapport de bug sur Sourceforge et j'ai contactÃ© des dÃ©veloppeurs Python sur IRC (salon #python-dev du serveur Freenode). Ils sont trÃ¨s sympas et rÃ©actifs.

Finalement, mes correctifs ont Ã©tÃ© appliquÃ©s dans le trunk de Python (la version de dÃ©veloppement) et feront partie de Python 2.5.2 (la version 2.5.1 Ã©tant en cours de finalisation). 48h pour corriger un bug, je trouve Ã§a tout de mÃªme trÃ¨s court comme dÃ©lai quand on sait que Microsoft Windows et Internet Explorer ont des bugs vieux de plus de 6 ans :-)

un commentaire :: aucun trackback

mercredi 4 avril 2007

Nouvelles d'hachoir-metadata

Par haypo, mercredi 4 avril 2007 à 01:08 :: Python

hachoir-metadata est un programme permettant de lire les mÃ©tadonnÃ©es d'un fichier : taille d'une image, auteur d'une vidÃ©o, durÃ©e d'un son, etc. Il repose sur hachoir-parser pour lire les informations d'un fichier.

Traitements automatiques

hachoir-metadata rÃ©alise de plus en plus de traitements automatiques haut niveaux tels que :

supprimer les espaces inutiles
ignorer les chaÃ®nes de caractÃ¨re vides
filtrer les valeurs : ignore les valeurs abbÃ©rantes (ex: image ayant une largeur nulle)
supprimer les doublons

La suppression des doublons ne concerne pas simplement les valeurs identiques. Pour les chaÃ®nes de caractÃ¨re, hachoir-metadata est capable de reconnaÃ®tre qu'une chaÃ®ne est le dÃ©but d'une autre. Exemple : si on trouve les deux auteurs "James Brown" et "James Br" pour une chanson, seule la chaÃ®ne la plus longue est conservÃ©e (James Brown !).

RÃ©utilisation des valeurs

L'extracteur de mÃ©tadonnÃ©e est de plus en plus rigoureux : les valeurs doivent Ãªtre d'un type prÃ©cis. Par exemple, la durÃ©e d'une chanson est maintenant du type Python Â« timedelta Â». Avant les dates, durÃ©es, dÃ©bit en bit/sec, nombre de canaux audios Ã©taient tantÃ´t une chaÃ®ne de caractÃ¨re, tantÃ´t un entier, tantÃ´t une date, ...

Le fait que le type des donnÃ©es soit strict a permis de faire des calculs sur les documents multimÃ©dias. On peut maintenant obtenir le dÃ©bit en bits par seconde pour du son et de la vidÃ©o, et le taux de compression pour une image et du son. Ceci permet de comparer la qualitÃ© d'un codec.

Option --quality

J'ai Ã©galement ajoutÃ© l'option --quality permettant de choisir la Â« qualitÃ© Â» des mÃ©tadonnÃ©es extraites. En fait, cette option dÃ©termine la vitesse d'extraction : les opÃ©rations lourdes ne seront faites que pour quality=1.0, alors que pour quality=0.0 toutes les opÃ©rations lentes sont ignorÃ©es. Cette option influe par exemple sur le calcul de la durÃ©e d'un MP3 Ã dÃ©bit variable : pour un calcul exact, il faut lire le fichier en entier mais ceci est trÃ¨s long. L'option quality va donc faire varier le nombre de champs traitÃ©s.

2 commentaires :: aucun trackback

Nouvelles d'Hachoir (core et parser)

Par haypo, mercredi 4 avril 2007 à 01:04 :: Python

Je viens de me rendre compte que Ã§a fait pas mal de temps que je code sans Ã©crire de journal sur les derniers dÃ©veloppement de mon projet Hachoir. Voici donc un premier billet donnant des nouvelles du front.

hachoir-core

hachoir-core est le cÅ“ur d'Hachoir : la partie bas niveau qui va dÃ©couper un fichier en une multitudes de champs. Mais ce composant contient Ã©galement Ã©normÃ©ment d'outils divers comme une humanDuration() qui va convertir une durÃ©e en une reprÃ©sentation Â« humaine Â» (ex: "22 sec 320 ms"). Aujourd'hui, hachoir-core Ã©volue peu car il commence Ã couvrir l'ensemble des besoins d'un parseur.

Le plus gros changement rÃ©cent est la tolÃ©rance aux erreurs. En fait, l'erreur n'est pas corrigÃ©e mais rattrapÃ©e. Par exemple, si une erreur est dÃ©tectÃ©e durant la gÃ©nÃ©ration de la description d'un champ : l'erreur est affichÃ©e et la description devient une chaÃ®ne vide. Ceci peut sembler naturel, mais ce n'Ã©tait pas le cas avant. PrÃ©cÃ©demment, si la gÃ©nÃ©ration d'une description Ã©chouait, on perdait beaucoup d'informations car l'erreur dÃ©clanchait une cascade d'autres erreurs et finalement plusieurs champs Ã©taient dÃ©truits. Ce principe de rattrapage d'erreurs est utilisÃ© dans un maximum de code. Il reste peu de fonctions qui ne sont pas Â« protÃ©gÃ©es Â» ce qui rend le code toujours plus robustes.

hachoir-parser

hachoir-parser est un ensemble de parseurs de fichiers (images, vidÃ©os, archives, programmes, ...). Ce composant est celui auquel contribue le plus de monde car il est simple de le modifier (corriger) ou d'ajouter son propre parseur. J'ai notamment reÃ§u un gros coup de main de Christophe GISQUET qui a Ã©crit les parseurs ACE, RAR, Torrent et d'autres. Mike Melanson, le chef de projet du greffon Flash pour Linux, a Ã©galement Ã©crit des parseurs pour les formats Real Audio et Real Media. Enfin, Olivier SCHWAB a Ã©crit un parseur 7-zip.

Archive : archive ACE, Microsoft cabinet (CAB), Roshal archive (RAR), archive Microsoft (MAR)
Audio : Uncompressed amiga module (MOD), ScreamTracker3 module (S3M), FastTracker II Extended Module (XM), Audio Interchange File Format (AIFF et AIFC), Real audio (RA), image Targa (TGA)
Image : Photoshop (PSD), icone animÃ© Windows (ANI), Aldus Placeable Metafile (APM), Microsoft Enhanced Metafile (EMF) et Microsoft Windows Metafile (WMF)
Divers : BitTorrent (.torrent), police de caractÃ¨re TrueType (TTF), document PDF, exÃ©cutable Windows 16-bit (NE), vidÃ©o MPEG-2 Transport Stream (MPEG TS), raccourci Windows (LNK), X11 Portable Compiled Font (PCF), aide Windows HTML (CHM), ...

Ã€ l'heure actuelle il y a 70 parseurs dans la version de dÃ©veloppement d'Hachoir. J'ai du mal Ã savoir si c'est beaucoup ou peu. En consultant la liste complÃ¨te des parseurs, je pense tout de mÃªme que c'est assez consÃ©quent pour ne pas dire Ã©norme. Il faut d'ailleurs savoir que certains parseurs gÃ¨rent plusieurs formats. Exemples : RIFF parse les formats AVI, WAV, ANI et CDA; WMF parse les formats AMF, EMF et WMF; etc.

aucun commentaire :: aucun trackback

lun	mar	mer	jeu	ven	sam	dim
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Blog Haypo

Imposer des limites arbitraires

Utiliser les exceptions

Limiter la mÃ©moire

Limiter le temps processeur

Limiter la pile

Mes correctifs Python intÃ©grÃ©s dans le trunk officiel

Nouvelles d'hachoir-metadata

Traitements automatiques

RÃ©utilisation des valeurs

Option --quality

Nouvelles d'Hachoir (core et parser)

hachoir-core

hachoir-parser

Calendrier

Rechercher

Catégories

Archives

Liens

Syndication