Python - Blog Haypo

vendredi 4 décembre 2009

Compiler PyPy trunk en activant le compilateur Ã la volÃ©e (JIT)

Par haypo, vendredi 4 décembre 2009 à 00:24 :: Python

PyPy est une interprÃ¨te Python Ã©crit en Python. Il implÃ©mente Python 2.5 et offre quelques fonctionnalitÃ©s supplÃ©mentaires. Je m'intÃ©resse surtout au compilateur Ã la volÃ©e, car il laisse espÃ©rer une vitesse d'exÃ©cution des programmes Python bien meilleure. Lire ces benchmarks du blog PyPy pour se faire une idÃ©e :

Some benchmarking (18 novembre 2009)
First pypy-cli-jit benchmarks (15 octobre 2009)
PyPy's JIT now supports floats (6 octobre 2009)

PrÃ©requis

Linux
Processeur 32 bits (le compilateur Ã la volÃ©e ne gÃ¨re pas encore le 64 bits)
2 Go de mÃ©moire (1,5 Go semblent suffisant selon ce que j'ai lu)
Une bonne heure pour la compilation

TÃ©lÃ©chargement

svn co http://codespeak.net/svn/pypy/trunk/ pypy-trunk

Installer les dÃ©pendances

Sous Debian / Ubuntu :

sudo apt-get install libffi-dev libbz2-dev libexpat1-dev libexpat1-dev

La compilation proprement dite

cd pypy-trunk/pypy/translate/goal
python translate.py -Ojit

PrÃ©voir 60 minutes sur un CPU Intel @ 3 GHz et 2 Go de mÃ©moire. Pour faire patienter, PyPy dessine de jolies fractales :

Le rÃ©sultat est le programme testing-1 (environ 18 Mo) dans le dossier /tmp/usession-trunk-0/testing_1/. Je vous conseille de le dÃ©placer le fichier testing-1 Ã la racine du projet PyPy sous le nom pypy-c-jit.

C'est prÃªt !

VoilÃ , vous avez un PyPy prÃªt Ã l'emploi. Vous pouvez jouer avec l'option --jit :

$ ./pypy-c-jit --help
usage: /home/haypo/prog/SVN/pypy-trunk/pypy-c-jit [options]

options:
 (...)
 --jit debug=N              low-level JIT parameter (default 2)
 --jit hash_bits=N          low-level JIT parameter (default 14)
 --jit inlining=N           low-level JIT parameter (default False)
 --jit optimizer=N          low-level JIT parameter (default 1)
 --jit threshold=N          low-level JIT parameter (default 1000)
 --jit trace_eagerness=N    low-level JIT parameter (default 200)
 --jit trace_limit=N        low-level JIT parameter (default 10000)

Un sprint PyPy est prÃ©vu fin janvier 2010 (dans un chalet en Suisse) pour finaliser la version 1.2 qui devrait donc sortir peu aprÃ¨s (je l'espÃ¨re).

Unladen Swallow

J'attend aussi beaucoup d'Unladen Swallow qui a pris une autre voie. C'est un fork de CPython 2.6 qui utilise LLVM pour la boucle d'Ã©valuation du bytecode Python. LLVM intÃ¨gre notamment un compilateur Ã la volÃ©e. Contrairement Ã PyPy qui redÃ©veloppe tout depuis zÃ©ro dans leur coin, LLVM est un projet trÃ¨s populaire utilisÃ© par Apple pour ses effets graphiques, dans les pilotes 3D Xorg rÃ©cents (Gallium), pour compiler des programmes en C, etc. Non pas que les dÃ©veloppeurs de PyPy soient moins bons, j'ai plus confiance dans un projet (LLVM) utilisÃ© par un grand nombre des personnes pour des usages trÃ¨s diffÃ©rents. C'est un gage de pÃ©rÃ©nitÃ©, et LLVM semble plus actif.

D'ailleurs, PyPy avait un backend LLVM pendant un temps, mais ils l'ont abandonnÃ©. Il me semble que la raison avancÃ©e par les auteurs de PyPy Ã©tait que LLVM n'Ã©tait pas adaptÃ© Ã Python, langage trop dynamique.

Unladen Swallow a aussi l'avantage d'Ãªtre 100% compatible avec CPython... vu que c'est un fork de CPython, notamment au niveau des modules tiers Ã©crits en C (utilisant l'API C de Python) comme PyQt ou numpy.

un commentaire :: aucun trackback

mardi 27 janvier 2009

Hors-sÃ©rie Linux Mag : Explorez les richesses du langage Python

Par haypo, mardi 27 janvier 2009 à 00:01 :: Python

Depuis un an, Philippe Biondi parcourait la France sans relÃ¢che Ã la recherche d'auteurs pour Ã©crire un hors-sÃ©rie dÃ©diÃ© Ã Python. GrÃ¢ce Ã sa persÃ©vÃ©rance, le hors-sÃ©rie dÃ©diÃ© Ã Python est enfin en vente dans toutes les librairies (en France) !

J'ai Ã©crit quatre articles dans ce hors-sÃ©rie.

NouveautÃ©s de Python 2.6

Version amÃ©liorÃ©e, corrigÃ©e et illustrÃ©e (d'exemples) de ma dÃ©pÃªche linuxfr.org (elle-mÃªme basÃ© sur Whatâ€™s New in Python 2.6 que j'ai traduit).

NouveautÃ©s de Python 3.0

Article Ã©crit avant la sortie de Python 3 par ma propre expÃ©rience, et avant que la documentation Whatâ€™s New In Python 3.0 ne soit Ã©crite par Guido van Rossum (... mais finalement publiÃ© aprÃ¨s).

Trucs et astuces

Article Ã©crit co-Ã©crit par Philippe Biondi mÃªme s'il est trop humble pour l'avouer !

Ctypes et Python

Guide pratique pour Ã©crire un binding C en Python avec ctypes. C'est aussi un retour d'expÃ©rience sur mes bindings pynetfilter_conntrack et python-ptrace.

Ruez-vous en librairie, il n'y en aura pas pour tout le monde ! Je me suis dÃ©jÃ empressÃ© d'acheter mon exemplaire. J'ai particuliÃ¨rement apprÃ©ciÃ© l'article de GaÃ«l Varoquaux : Python comme langage scientifique, article qui sent le vÃ©cu et l'utilisation concrÃ¨te de Python.

8 commentaires :: aucun trackback

vendredi 22 août 2008

DÃ©boguer un programme Python avec gdb

Par haypo, vendredi 22 août 2008 à 01:08 :: Python

Python est un langage interprÃ©tÃ© par une machine virtuelle appelÃ©e CPython. Dumoins, CPython est l'implÃ©mentation de rÃ©fÃ©rence, il en existe d'autres moins rÃ©pendues (PyPy, Jython, IronPython, etc.). Pour ceux qui ne le savent pas encore, CPython est Ã©crit en langage C. Lorsque CPython plante (Â« Fatal error: ... Â», erreur de segmentation ou autre), il est difficile de connaÃ®tre les raisons du plantage. Ce billet devrait vous Ã©clairer un peu si vous en Ãªtes arrivÃ© Ã passer par gdb pour dÃ©boguer Python.

2 commentaires :: aucun trackback

mercredi 9 juillet 2008

Publication de Fusil le fuzzer version 0.9, fuzzing de CPython et de PyPy

Par haypo, mercredi 9 juillet 2008 à 13:18 :: Python

Fuzzer Python

Suite Ã ma confÃ©rence sur l'assurance qualitÃ© et fuzzing aux RMLL, je me suis remis Ã jouer avec mon fuzzer Fusil. Dans le TGV retour, 8h quand mÃªme pour rentrer Ã Strasbourg, j'ai Ã©crit un fuzzer pour le langage Python. L'idÃ©e est de rÃ©cupÃ©rer la liste des fonctions, classes et mÃ©thodes d'une module, et les appeler/instancier avec un nombre d'arguments alÃ©atoires de type alÃ©atoire. Comme je m'y attendais, une fois le fuzzer python Ã©crit, CPython 2.5 a rapidement plantÃ© : erreur de segmentation dans le module imageop.

Rapports de bugs Python 2.6

Pour Ã©crire un rapport de bug correct, j'ai reproduit les bugs avec la version trunk (futur CPython 2.6) compilÃ©e avec l'option pydebug et... mince, Ã§a plante plus : le bug imageop est dÃ©jÃ corrigÃ©. J'ai donc amÃ©liorÃ© le fuzzer pour qu'il ne teste non plus uniquement un seul module, mais toute une liste de modules (j'ai notÃ© ceux Ã©crits en langage C), et j'ai rajoutÃ© d'autres types d'argument (nombre flottant, objet, unicode, etc.). VoilÃ CPython qui plante, ouf, l'honneur du fuzzing est sauf :-) J'ai alors rapportÃ© une quinzaine de bugs (cherchez les bugs rapportÃ©s entre le 6 et le 9 juillet), Ã chaque fois accompagnÃ© d'un patch et d'un exemple pour reproduire le crash. Deux patchs sont dÃ©jÃ appliquÃ©s.

Publication de Fusil 0.9

Pour fÃªter ce succÃ¨s, j'ai publiÃ© la version 0.9 de Fusil. Cette nouvelle version contient le nouveau fuzzer pour Python, peut s'exÃ©cuter dans l'interprÃ¨te Python PyPy, gÃ¨re mieux le logging (sortie plus concise mais contient le nombre de crash et un fichier project.log est conservÃ© dans le dossier du projet), et l'outil IncrMangle est plus rapide et prÃ©cis.

Fuzzing de PyPy

Enfin, j'ai fuzzÃ© un peu PyPy, mais le seul vrai bug que j'ai trouvÃ© est dans un module que j'ai Ã©crit (module pwd Ã©crit avec ctypes) ! Par contre, Carl (cfbolz sur le salon IRC #pypy du serveur Freenode) a trouvÃ© d'autres bugs dans PyPy en utilisant Fusil.

Classement des interprÃ¨tes Python

Pour rÃ©sumer, vu les rÃ©sultats face aux tests de fuzzing, on peut classer la qualitÃ© des interprÃ¨tes Python comme ceci : CPython 2.5 < CPython trunk << PyPy oÃ¹ << veut dire trÃ¨s supÃ©rieur. Effectivement, je n'ai trouvÃ© qu'un seul bug PyPy aprÃ¨s une nuit de fuzzing contre une quinzaine dans CPython rapidement dÃ©tectÃ©s.

4 commentaires :: aucun trackback

jeudi 8 mai 2008

Pycon FR : les JournÃ©es Python Francophones Ã©dition 2008 (JPF08)

Par haypo, jeudi 8 mai 2008 à 04:31 :: Python

Comme l'annÃ©e passÃ©e, je participe aux JournÃ©es Python Francophones organisÃ©es par l'AFPy Ã Paris (Ã la CitÃ© des Sciences et de l'Industrie pour Ãªtre exact). Contrairement aux confÃ©rences telle que Blackhat oÃ¹ l'entrÃ©e coÃ»te plusieurs milliers d'euros, Pycon FR est entiÃ¨rement gratuit !

Pour les gens qui ne peuvent pas se rendre Ã Paris ou qui sont dÃ©jÃ pris ce week-end lÃ , aucun soucis ! Les confÃ©rences seront diffusÃ©es en direct sur Internet (ils ont pensÃ© Ã tout). Elles seront trÃ¨s certainement disponibles en tÃ©lÃ©chargement un peu plus tard.

Au niveau du programme, je vous laisse le consulter vous mÃªme. Je donne une confÃ©rence sur l'interprÃ¨te PyPy et une autre sur Python 3000. Il faudrait d'ailleurs que je commence Ã les prÃ©parer... Pour l'anecdote, j'ai deux collÃ¨gues INL qui donnent des confÃ©rences (seb et misc) :-)

Pycon FR est aussi l'occasion de rencontrer des programmeurs Python et de discuter autour d'un cafÃ© ou d'une biÃ¨re. Alors, viendez !

7 commentaires :: aucun trackback

mercredi 21 novembre 2007

Nouvelle implÃ©mentation de Fusil sous forme d'un systÃ¨me multi-agents

Par haypo, mercredi 21 novembre 2007 à 01:25 :: Python

Cet article dÃ©taille l'architecture d'une nouvelle implÃ©mentation de mon outil de fuzzing Â« Fusil Â» : un systÃ¨me multi-agents qui devrait Ã©viter la lourdeur des applications monolithiques.

SystÃ¨me multi-agents

Pour avoir mis les doigts dans de grosses applications (plus de 10.000 lignes de codes), je peux dire qu'une application monolithique est difficile Ã dÃ©boguer et Ã faire Ã©voluer. L'architecture d'un logiciel repose sur un graphe d'objets liÃ©s les uns et autres Ã la sauce spaghetti. Modifier une classe ou le prototype d'une fonction impacte des dizaines d'autres classes et fonctions. Bien que des outils de refactoring facilitent la rÃ©percution des changements sur l'ensemble du projet, une architecture plus modulaire nous dÃ©lesterait de cette tÃ¢che ingrate.

Un systÃ¨me multi-agents (SMA) est une simulation qui implique des dizaines d'agents simples qui communiquent entre eux par des Ã©vÃ©nements. Le gros avantage est qu'un agent est (quasiment) aveugle : sa vision de l'environnement est volontairement limitÃ©e. En particulier, un agent n'a pas accÃ¨s aux donnÃ©es des autres agents. Ce concept issu de la recherche en intelligence artificielle peut Ãªtre adaptÃ© Ã des programmes plus communs. Comme j'ai repris mon projet Fusil depuis zÃ©ro (pour la 3e fois), j'ai dÃ©cidÃ© d'implÃ©menter un SMA simple en Python pour mes besoins.

Agents dans Fusil

Pour rappel, Fusil est un gÃ©nÃ©rateur d'erreurs servant Ã rechercher des bugs dans un logiciel (Fusil est un fuzzer). Dans Fusil, tout est agent. Lorsqu'un agent Ã©met un Ã©vÃ©nement, ce dernier est mis en attente dans le MTA (Mail Transfer Agent). L'Ã©vÃ©nement n'est transmis aux destinataires qu'au cycle de simulation suivant. L'agent Project est responsable d'exÃ©cuter la simulation : il demande Ã chaque agent de lire sa boÃ®te de messages puis d'exÃ©cuter leur mÃ©thode live(). MTA et Project sont eux-mÃªme des agent et peuvent donc Ã©mettre et recevoir des Ã©vÃ©nements. Exemples d'Ã©vÃ©nements : Â« session_start Â», Â« process_create Â», etc.

Les agents de type Session sont crÃ©es pendant une session et sont automatiquement dÃ©truits Ã la fin d'une session. Les agents de type Project sont conservÃ©s toute la durÃ©e de vie du projet. Par contre, ils sont dÃ©sactivÃ©s quand aucune session n'est active : ils ne peuvent plus communiquer (ni Ã©mettre ni recevoir de messages) et leur mÃ©thode live() n'est plus appelÃ©e. Enfin, lorsque le projet est fermÃ©, les agents Project sont dÃ©truits. Ce dÃ©coupage (Project/Session) permet de gÃ©rer simplement la durÃ©e de vie des donnÃ©es. En particulier, on s'assure que les donnÃ©es sont dÃ©truites au bon moment.

Exemples d'agent

CreateProcess : lance un programme. Tue le processus en cas de timeout (10 secondes par dÃ©faut).
WatchProcess: surveille un processus et en particulier sa mort (le processus a quittÃ© ou a Ã©tÃ© tuÃ© par un signal fatal)
Syslog : surveille les logs systÃ¨mes (/var/log/message et /var/log/syslog)
TimeWatch : surveille la durÃ©e d'une session
MangleFile : injecte des erreurs dans un fichier

SystÃ¨me de notation

Les agents de surveillance attribuent une note Ã la session entre -100% et +100%. La note globale est la somme de toutes les notes. Si elle dÃ©passe un seuil (+50% par dÃ©faut), la session est considÃ©rÃ©e comme un succÃ¨s et est stoppÃ©e. Certains agents peuvent demander explicitement la fin d'une session : aprÃ¨s un timeout ou la mort du processus par exemple.

Projets de fuzzing

Un projet Fusil est une configuration pour fuzzer une application. Une douzaine de projets sont disponible : ClamAV, printf, MySQL, rpm, etc. Les projets sont beaucoup plus diversifiÃ©s que les exemples des prÃ©cÃ©dentes implÃ©mentations de Fusil. La nouvelle architecture plus modulaire et gÃ©nÃ©rique permet de configurer trÃ¨s finement chaque composant (agent).

Le moteur du SMA de Fusil est encore en gros chantier. Il risque encore de beaucoup Ã©voluer ces prochaines semaines pour s'adapter au mieux aux besoins du logiciel. Note : Fusil s'autorise de multiple digressions par rapport au SMA parfait pour simplifier la vie du programmeur.

un commentaire :: aucun trackback

samedi 15 septembre 2007

graphdep

Par haypo, samedi 15 septembre 2007 à 14:41 :: Python

Pour visualiser le trafic rÃ©seau d'un ordinateur, il existe de nombreux outils de visualisation. Philippe Biondi a par exemple dÃ©veloppÃ© l'outil RT Graph 3D qui utilise scapy pour dessiner en 3D les liens entre les Ã©lÃ©ments du rÃ©seau. Mais c'est la bibliothÃ¨que Python GVGlue de toady qui m'a donnÃ© envie de faire des schÃ©mas. J'ai alors Ã©crit graphdep qui utilise GVGlue. Pour commencer, voici le graphe du programme graphdep :

Le schÃ©ma reprÃ©sente les dÃ©pendances entre les diffÃ©rents modules d'un projet. L'utilisation de graphdep ne nÃ©cessite pas de modification du programme : les modules sont dÃ©couverts automatiquement. La version actuelle supporte les langages C, C++, PHP et Python. Comme Ã mon habitude, je distribue ce programme sous licence GNU GPL, vous pouvez le tÃ©lÃ©charger gratuitement sur graphdep.

Beaucoup d'options sont disponibles pour filtrer les modules Ã afficher ou cacher, ou non car le schÃ©ma peut rapidement devenir Ã©norme. Exemple avec le mÃªme projet mais en affichant tous les modules :

On peut imaginer d'autres schÃ©mas : hiÃ©rarchie des classes, dÃ©pendances entre les fonctions, etc. Pour les fonctions, le logiciel Doxygen gÃ©nÃ¨re dÃ©jÃ de jolis graphes. Exemple : documentation de NuFW (libnuclient).

aucun commentaire :: aucun trackback

mardi 14 août 2007

Ã‰tat des lieux de Python 3000

Par haypo, mardi 14 août 2007 à 15:31 :: Python

Profitant de mes vacances, j'ai testÃ© Python 3000 (relire mon billet prÃ©cÃ©dent sur Python 3000) pour voir si c'Ã©tait utilisable. Autant ne pas se mentir : Python 3000 n'est pas prÃªt pour un usage quotidient. Selon moi, il y avait deux Ã©volutions majeures et pÃ©nibles (pour les dÃ©veloppeurs CPython) : fusion des types int et long, et la distinction entre les types bytes et str (anciennement str et unicode).

Types int et long

Pour les types int et long, en fait c'est le type long est renommÃ© int et le l'ancien type int disparait. Pour les programmmeurs Python, on aura plus besoin d'Ã©crire Â« isinstance(valeur, (int, long)) Â» pour vÃ©rifier si une valeur est un entier : Â« isinstance(valeur, int) Â» est dÃ©sormais suffisant. Le suffixe L indiquant qu'un nombre est un entier long disparait Ã©galement.

Pour la manipulation des entiers, Python 2.4 Ã©tait dÃ©jÃ une avancÃ©e majeure. Si le rÃ©sultat d'un calcul sur des entiers courts (int) dÃ©passe la capacitÃ© d'un entier court, une conversion automatique en entier long est rÃ©alisÃ©e. Exemple : 2 ** 100 (oÃ¹ 2 et 100 sont des entiers courts) retourne 1267650600228229401496703205376L (type long).

Selon moi, Python va dans le bon sens : s'abstraire des limitations matÃ©rielles pour simplifier la vie au dÃ©veloppeur. Python s'occupe tout seul des tÃ¢ches pÃ©nibles : allouer la mÃ©moire, faire des calculs sur les entiers longs, etc.

Types bytes et str

La distinction entre octet et caractÃ¨re est un changement majeur dans Python. La compatibilitÃ© est brisÃ©e car le type bytes n'a plus les mÃ©thodes relatives Ã la manipulation de caractÃ¨re telle que lower() et splitlines(), et un Ã©lÃ©ment d'une chaÃ®ne bytes est un entier et non pas une sous-chaÃ®ne bytes. Exemple : b'xyz'[0] retourne 120. C'est d'ailleurs dÃ©routant car le test Â« b'xyz'[0] == b'x' Â» est faux (120 == b'x' est faux). Il faut Ã©crire explicitement Â« b'xyz'[0] == ord(b'x') Â» ou Â« b'xyz'[0] == 120 Â».

La tÃ¢che est quasiment terminÃ©e : la branche subversion py3k-struni qui lui Ã©tait dÃ©diÃ©e a Ã©tÃ© fusionnÃ©e dans la branche py3k (branche python 3000 officielle). Il reste quelques bogues en particulier le module Â« email Â» qui est loin de fonctionnner en Python 3000.

J'ai aidÃ© en corrigeant les modules ctypes, imghdr et sndhdr. Voir les commits 56838 (ctypes) et 56987 (imghdr et sndhdr). J'ai tentÃ© avec beaucoup de mal de migrer le module email, mais comme il est assez gros et mÃ©lange allÃ©grement octet et caractÃ¨re, c'est loin d'Ãªtre terminÃ©. J'ai envoyÃ© plusieurs emails Ã la liste de diffusion email-sig mais j'ai eu peu de retours.

Python 3000 Ã§a sort quand ?

Une partie du wiki Python est dÃ©diÃ©e Ã Python 3000 oÃ¹ on trouve en particulier les articles Py3kToDo (ce qu'il reste Ã faire dans Python 3000) et Py3kStrUniTests (tests unitaires cassÃ©s par la distinction bytes/str). La PEP 3100 (Miscellaneous Python 3.0 Plans) liste Ã©galement toutes les tÃ¢ches Ã faire pour Python 3000 avec leur Ã©tat : [done] (fait), [UNLIKELY] (tÃ¢chÃ© en discussion), [no] (tÃ¢che refusÃ©e).

aucun commentaire :: aucun trackback

lundi 30 juillet 2007

Changements apportÃ©s par Python 3000

Par haypo, lundi 30 juillet 2007 à 05:21 :: Python

Je suis de trÃ¨s prÃ¨s le dÃ©veloppement du langage Python et en particulier de la prochaine version majeure : Python 3000. Cette version casse la compatibilitÃ© mais pour de bonnes raisons.

Types bytes et str

Dans Python 3000, une chaÃ®ne de caractÃ¨res sera du type Â« str Â» (de l'anglais string) et non plus Â« unicode Â» (qui prÃªtait Ã confusion). L'actuel type Â« str Â» de Python 2.x devient le type Â« bytes Â» qui comme son nom l'indique contient des octets (bytes en anglais). Pour avoir tentÃ© d'expliquer Ã de nombreuses reprises Unicode et la diffÃ©rence entre caractÃ¨re et octet, je pense que c'est une trÃ¨s bonne chose. Je vous conseille la lecture de la PEP 358 (The "bytes" Object) pour les dÃ©tails. Le type bytes sera disponible dans Python 2.6 et Python 3000.

Annotation des fonctions

Critique rÃ©currente Ã Python : le prototype d'une fonction n'indique pas son type. De mon point de vue, c'est une qualitÃ© : celÃ permet de duck-typing (If it looks like a duck and quacks like a duck, it must be a duck : Si Ã§a ressemble Ã canard et que Ã§a fait le bruit d'un canard, ce doit Ãªtre un canard). Mais le gros problÃ¨me est qu'on n'a pas la possibilitÃ© de dÃ©terminer Ã la compilation si la fonction va Ã©chouer ou non car le type d'un argument est incompatible.

La PEP 3107 (Function Annotations) propose d'ajouter des annotations optionnelles aux arguments et au type de retour. Une fois que Ã§a sera implÃ©mentÃ©, je suis sÃ»r que Ã§a sera rapidement exploitÃ© par les outils de vÃ©rification automatiques tel que pychecker.

Exemple d'annotation :

def haul(item: Haulable, *vargs: PackAnimal) -> Distance:
    ...

Argument sous forme de mot-clÃ©

Un autre dÃ©faut de Python 2.x : on ne peut pas indiquer qu'un argument ne peut Ãªtre passÃ© que sous la forme Â« mot-clÃ©=valeur Â». Exemple :

def afficheProduit(nom, prix, monnaie=u"â‚¬", note=None):
   print "%s: %s %s" % (nom, prix, monnaie)
   if note:
      print "(note: %s)" % note

Cette notation prÃªte Ã confusion, on peut se tromper on oubliant de forcer d'indiquer qu'on veut spÃ©cifier une note : Â« afficheProduit("voiture", 100, "petite voiture rouge") Â». Notre note sera passÃ©e en valeur de Â« monnaie Â», il aurait fallu Ã©crire Â« afficheProduit("voiture", 100, note="petite voiture rouge") Â».

La PEP 3102 (Keyword-Only Arguments) rÃ©pond Ã ce problÃ¨me avec la syntaxe suivante :

def afficheProduit(nom, prix, *, monnaie=u"â‚¬", note=None):
   print "%s: %s %s" % (nom, prix, monnaie)
   if note:
      print "(note: %s)" % note

L'appel Â« afficheProduit("disque", 50, "US$") Â» sera alors interdit, il faudra explicitement (Explicit is better than implicit) Ã©crire Â« afficheProduit("disque", 50, monnaie="US$") Â».

Dans mon exemple, ce n'est pas parlant mais lorsqu'on a 6 arguments ou plus, c'est bien pratique.

Documents sur Python 3000

Je ne voulais insister que sur les changements qui me semblaient les plus importants, mais Python 3000 change bien plus de choses ! Je vous conseille la prÃ©sentation de Guido van Rossum : les slides Â« Python 3000 Â» (PowerPoint) et la vidÃ©o Â« Python 3000 Â».

Autres documents sur Python 3000 :

FAQ Python 3000 par Guido Van Rossum
PEP 3100 (Miscellaneous Python 3.0 Plans) qui remplace la PEP 3000 (Python 3000)
PEP 3101 (Advanced String Formatting)
PEP 3116 (New I/O)
PEP 3119 (Introducing Abstract Base Classes)
PEP 3129 (Class Decorators)
PEP 3131 (Supporting Non-ASCII Identifiers)

Et enfin, Python 3000 Status Update (19 juin 2007) par Guido Van Rossum.

3 commentaires :: aucun trackback

samedi 19 mai 2007

JournÃ©es Python le 2 et 3 juin 2007 Ã Paris

Par haypo, samedi 19 mai 2007 à 15:45 :: Python

L'AFPy organise pour la premiÃ¨re annÃ©e les JournÃ©es Python Francophones. Au programme : de nombreuses confÃ©rences de 9h Ã 17h (voir plus si on est motivÃ©), consultez le programme complet .

Au dÃ©but je n'avais pas prÃ©vu d'y aller : Strasbourg - Paris Ã§a fait encore 4h de train mÃªme si Â« le TGV Est arrive Â»... le 10 juin. Mais comme je vais au SSTIC, je vais m'arrÃªter Ã Paris au retour. Le SSTIC, c'est 3 jours de confÃ©rences, du 30 mai au 1er Juin Ã Rennes, sur le thÃ¨me de la sÃ©curitÃ©. C'est ma boÃ®te, INL, qui me paie l'inscription (environ 200â‚¬ de mÃ©moire) et le voyage. J'y serai avec 3 collÃ¨gues et vu le programme, Ã§a risque d'Ãªtre vraiment chouette. En plus, je ferai un prÃ©sentation Ã©clair (5 minutes) sur le fuzzing ;-)

Pour revenir aux JournÃ©es Python (qui elles sont gratuites), je vais Ã©galement y faire prÃ©sentations : Â« Projet Hachoir et bonnes pratiques Â» et Â« Automatisation des tests logiciels Â». Hum, Ã§a a l'air intÃ©ressant, mais il va falloir trouver du contenu pour tenir 25 minutes chaque fois :-) Je mettrais toutes mes prÃ©sentations en ligne une fois qu'elles seront Ã©crites.

PrÃ©sentations Python qui me tentent bien :

TraitsUI pour dÃ©velopper des applications graphiques : j'en avais dÃ©jÃ entendu parler et Ã§a semble trÃ¨s prometteur comme technologie
Atelier http://ipython.scipy.org/ : interprÃ©teur Python intÃ©grant un dÃ©bogueur, la coloration syntaxique, un petit Ã©diteur, etc.
Lightning Talks : On peut s'attendre Ã plein de trucs chouettes :-)
Python et visualisation 3D : La 3D m'a toujours attirÃ©e
Dr. Gumby, the brain specialist (IA avec SciPy) : Intelligence artificielle et SciPy, Ã§a ne peut qu'Ãªtre intÃ©ressant.

En fait, il y a un peu tout qui me tente et je suis sÃ»r que j'aurai de bonnes surprises. Allez, viendez aux JournÃ©es Python ;-)

MISE A JOUR POST WEEK-END : Vous pouvez maintenant consulter ma prÃ©sentation du projet Fusil (PDF) et mes prÃ©sentations Python (HTML).

3 commentaires :: aucun trackback

mardi 24 avril 2007

Imposer des limites arbitraires

Par haypo, mardi 24 avril 2007 à 01:20 :: Python

Durant mes essais de fuzzing, j'ai compris assez vite qu'espÃ©rer Ã©crire un programme parfait n'est qu'un idÃ©al. PlutÃ´t que de corriger les erreurs, je pense qu'il vaut mieux Ã©crire du code tolÃ©rant aux erreurs. Je veux dire par lÃ que le programme continuera Ã fonctionner mÃªme si une procÃ©dure Ã©choue.

Utiliser les exceptions

On peut utiliser pour Ã§a le couple try/except en Python. Exemple trivial :

value = (...)
try:
   print "Date : %s" % datetime.datetime.fromtimestamp(value)
except ValueError:
   print "Date invalide (%r) !" % value

Mais le fuzzing mÃ¨ne souvent Ã une situation d'Ã©puisement (monopolisation) des ressources : votre programme va manger tout le temps processeur, toute la mÃ©moire, remplir le disque dur, utiliser toute sa pile, etc. J'ai alors cherchÃ© comment dÃ©tecter ces situations de crise. D'ailleurs elles ne doivent pas Ãªtre vue comme critiques mais normales et il faut les avoir Ã l'esprit en Ã©crivant un programme. Effectivement, les ressources sont limitÃ©es : il faut apprendre Ã partager.

Sous Linux, on peut utiliser resource.setrlimit(RLIMIT_AS, ...). Si la mÃ©moire totale dÃ©passe max_mem, une exception MemoryError est Ã©mise par Python.

J'ai implÃ©mentÃ© une fonction limitedMemory() qui va limiter temporairement la mÃ©moire : lire memory.py d'hachoir_core. L'erreur apparait si la mÃ©moire grossit de la quantitÃ© d'octets indiquÃ©e. Il suffit alors d'utiliser Â« try: limitedMemory(maxmem, ...) except MemoryError: ... Â».

Limiter le temps processeur

Pour Ã©viter que le programme reste bloquÃ© au mÃªme endroit pendant un temps excessif (cas typique : une boucle infinie), il faut pouvoir appeler une fonction avec une durÃ©e maximale. Sous Linux, on peut utiliser au choix : time.alarm() ou resource.setrlimit(RLIMIT_CPU, ...). Ã€ noter que pour la seconde solution, les pauses (time.sleep()) et le temps passÃ© dans le noyau ne sont pas pris en compte : il vaut donc mieux utiliser une alarme. Une alarme dÃ©clanche un signal SIGALRM alors que RLIMIT_CPU va gÃ©nÃ©rer un signal SIGXCPU.

Lorsque c'est possible, il vaut mieux utiliser des fonctions offrant dÃ©jÃ cette fonctionnalitÃ© comme par exemple la fonction select().

Limiter la pile

En testant dpkg, j'ai rÃ©ussi Ã le planter avec Â« COLUMNS=10000000 dpkg -l Â». AprÃ¨s investigation, il s'est avÃ©rÃ© que l'erreur venait de la libc (chose qui semblait impensable Ã mes yeux). En creusant encore, j'ai vu que vfprintf() utilisait massiment la pile pour Ã©crire la sortie de dpkg (qui configure stdout pour ne pas utiliser de tampon).

Bref, j'ai cherchÃ© Ã voir s'il Ã©tait possible d'attraper l'erreur Â« Ã©puisement de la pile Â». Et bien sÃ»r que oui : c'est possible ! Par contre, quand la pile est hors-service, hors de question d'utiliser printf() ou autre fonction succeptible de rÃ©utiliser la pile. Linux permet d'utiliser une pile dÃ©diÃ©e aux gestionnaires de signaux. Ah lÃ lÃ , il est quand mÃªme fort ce systÃ¨me d'exploitation, hein !

Les fonctions clÃ©s sont sigaltstack() pour crÃ©er une pile dÃ©diÃ©e Ã notre gestionnaire de signal, sigaction() pour appeler notre fonction quand le signal SIGSEGV est Ã©mis, setjmp()/longjmp() pour quitter le code boguÃ© et revenir Ã la Â« borne de sauvegarde Â» (renseignÃ©e par setjmp()).

En rÃ©unissant tous ces Ã©lements (try/except, limiter la mÃ©moire, temps et pile), je pense qu'on peut commencer Ã Ã©crire des programmes robustes. Bien sÃ»r, rien ne vaut un audit minutieux du code source.

aucun commentaire :: aucun trackback

jeudi 12 avril 2007

Par haypo, jeudi 12 avril 2007 à 00:13 :: Python

La nuit porte conseil. J'ai continuÃ© Ã traquer les bugs que j'avais trouvÃ© dans Python (rappel : plantage de Python lorsque la mÃ©moire est Ã©puisÃ©e) et j'en ai trouvÃ© un autre (comparaison d'un entier court et d'un entier long). Je les ai isolÃ©s et corrigÃ©s.

J'ai alors Ã©crit un rapport de bug sur Sourceforge et j'ai contactÃ© des dÃ©veloppeurs Python sur IRC (salon #python-dev du serveur Freenode). Ils sont trÃ¨s sympas et rÃ©actifs.

Finalement, mes correctifs ont Ã©tÃ© appliquÃ©s dans le trunk de Python (la version de dÃ©veloppement) et feront partie de Python 2.5.2 (la version 2.5.1 Ã©tant en cours de finalisation). 48h pour corriger un bug, je trouve Ã§a tout de mÃªme trÃ¨s court comme dÃ©lai quand on sait que Microsoft Windows et Internet Explorer ont des bugs vieux de plus de 6 ans :-)

un commentaire :: aucun trackback

mercredi 4 avril 2007

Nouvelles d'hachoir-metadata

Par haypo, mercredi 4 avril 2007 à 01:08 :: Python

hachoir-metadata est un programme permettant de lire les mÃ©tadonnÃ©es d'un fichier : taille d'une image, auteur d'une vidÃ©o, durÃ©e d'un son, etc. Il repose sur hachoir-parser pour lire les informations d'un fichier.

Traitements automatiques

supprimer les espaces inutiles
ignorer les chaÃ®nes de caractÃ¨re vides
supprimer les doublons

La suppression des doublons ne concerne pas simplement les valeurs identiques. Pour les chaÃ®nes de caractÃ¨re, hachoir-metadata est capable de reconnaÃ®tre qu'une chaÃ®ne est le dÃ©but d'une autre. Exemple : si on trouve les deux auteurs "James Brown" et "James Br" pour une chanson, seule la chaÃ®ne la plus longue est conservÃ©e (James Brown !).

L'extracteur de mÃ©tadonnÃ©e est de plus en plus rigoureux : les valeurs doivent Ãªtre d'un type prÃ©cis. Par exemple, la durÃ©e d'une chanson est maintenant du type Python Â« timedelta Â». Avant les dates, durÃ©es, dÃ©bit en bit/sec, nombre de canaux audios Ã©taient tantÃ´t une chaÃ®ne de caractÃ¨re, tantÃ´t un entier, tantÃ´t une date, ...

Le fait que le type des donnÃ©es soit strict a permis de faire des calculs sur les documents multimÃ©dias. On peut maintenant obtenir le dÃ©bit en bits par seconde pour du son et de la vidÃ©o, et le taux de compression pour une image et du son. Ceci permet de comparer la qualitÃ© d'un codec.

Option --quality

J'ai Ã©galement ajoutÃ© l'option --quality permettant de choisir la Â« qualitÃ© Â» des mÃ©tadonnÃ©es extraites. En fait, cette option dÃ©termine la vitesse d'extraction : les opÃ©rations lourdes ne seront faites que pour quality=1.0, alors que pour quality=0.0 toutes les opÃ©rations lentes sont ignorÃ©es. Cette option influe par exemple sur le calcul de la durÃ©e d'un MP3 Ã dÃ©bit variable : pour un calcul exact, il faut lire le fichier en entier mais ceci est trÃ¨s long. L'option quality va donc faire varier le nombre de champs traitÃ©s.

2 commentaires :: aucun trackback

Nouvelles d'Hachoir (core et parser)

Par haypo, mercredi 4 avril 2007 à 01:04 :: Python

Je viens de me rendre compte que Ã§a fait pas mal de temps que je code sans Ã©crire de journal sur les derniers dÃ©veloppement de mon projet Hachoir. Voici donc un premier billet donnant des nouvelles du front.

hachoir-core

hachoir-core est le cÅ“ur d'Hachoir : la partie bas niveau qui va dÃ©couper un fichier en une multitudes de champs. Mais ce composant contient Ã©galement Ã©normÃ©ment d'outils divers comme une humanDuration() qui va convertir une durÃ©e en une reprÃ©sentation Â« humaine Â» (ex: "22 sec 320 ms"). Aujourd'hui, hachoir-core Ã©volue peu car il commence Ã couvrir l'ensemble des besoins d'un parseur.

Le plus gros changement rÃ©cent est la tolÃ©rance aux erreurs. En fait, l'erreur n'est pas corrigÃ©e mais rattrapÃ©e. Par exemple, si une erreur est dÃ©tectÃ©e durant la gÃ©nÃ©ration de la description d'un champ : l'erreur est affichÃ©e et la description devient une chaÃ®ne vide. Ceci peut sembler naturel, mais ce n'Ã©tait pas le cas avant. PrÃ©cÃ©demment, si la gÃ©nÃ©ration d'une description Ã©chouait, on perdait beaucoup d'informations car l'erreur dÃ©clanchait une cascade d'autres erreurs et finalement plusieurs champs Ã©taient dÃ©truits. Ce principe de rattrapage d'erreurs est utilisÃ© dans un maximum de code. Il reste peu de fonctions qui ne sont pas Â« protÃ©gÃ©es Â» ce qui rend le code toujours plus robustes.

hachoir-parser

hachoir-parser est un ensemble de parseurs de fichiers (images, vidÃ©os, archives, programmes, ...). Ce composant est celui auquel contribue le plus de monde car il est simple de le modifier (corriger) ou d'ajouter son propre parseur. J'ai notamment reÃ§u un gros coup de main de Christophe GISQUET qui a Ã©crit les parseurs ACE, RAR, Torrent et d'autres. Mike Melanson, le chef de projet du greffon Flash pour Linux, a Ã©galement Ã©crit des parseurs pour les formats Real Audio et Real Media. Enfin, Olivier SCHWAB a Ã©crit un parseur 7-zip.

Archive : archive ACE, Microsoft cabinet (CAB), Roshal archive (RAR), archive Microsoft (MAR)
Audio : Uncompressed amiga module (MOD), ScreamTracker3 module (S3M), FastTracker II Extended Module (XM), Audio Interchange File Format (AIFF et AIFC), Real audio (RA), image Targa (TGA)
Image : Photoshop (PSD), icone animÃ© Windows (ANI), Aldus Placeable Metafile (APM), Microsoft Enhanced Metafile (EMF) et Microsoft Windows Metafile (WMF)
Divers : BitTorrent (.torrent), police de caractÃ¨re TrueType (TTF), document PDF, exÃ©cutable Windows 16-bit (NE), vidÃ©o MPEG-2 Transport Stream (MPEG TS), raccourci Windows (LNK), X11 Portable Compiled Font (PCF), aide Windows HTML (CHM), ...

Ã€ l'heure actuelle il y a 70 parseurs dans la version de dÃ©veloppement d'Hachoir. J'ai du mal Ã savoir si c'est beaucoup ou peu. En consultant la liste complÃ¨te des parseurs, je pense tout de mÃªme que c'est assez consÃ©quent pour ne pas dire Ã©norme. Il faut d'ailleurs savoir que certains parseurs gÃ¨rent plusieurs formats. Exemples : RIFF parse les formats AVI, WAV, ANI et CDA; WMF parse les formats AMF, EMF et WMF; etc.

aucun commentaire :: aucun trackback

vendredi 17 novembre 2006

Hachoir collection printemps-hiver

Par haypo, vendredi 17 novembre 2006 à 00:42 :: Python

Hachoir version 0.6

Mon dernier billet sur Hachoir datant de dÃ©but Septembre, je me dois d'Ã©crire au sujet des derniÃ¨res actualitÃ©s de ce projet. Pour commencer, fin octobre est sorti la version 0.6 que j'ai annoncÃ©e sur linuxfr.org. Au niveau fonctionnel, cette version permet maintenant d'Ã©diter un fichier et Ã©galement de manipuler un fichier corrompu et/ou tronquÃ©. Le projet a Ã©tÃ© dÃ©coupÃ© en de nombreux composants (hachoir, hachoir-parser, hachoir-metadata, ...), ce qui permet une meilleure visibilitÃ© de l'ensemble des fonctionnalitÃ©s, et d'un point de vue pratique de mettre Ã jour plus rÃ©guliÃ¨rement et de travailler sur de petits projets.

Depuis cette sortie, j'ai dÃ©jÃ sorti 3 versions mineures corrigeant des bogues. Subversion permet de travailler trÃ¨s simplement sur plusieurs versions Ã la fois. La version Â« trunk Â» est la plus Ã jour, tandis que le dossier Â« tags Â» contient les versions stables. Pour tagguer une version, rien de plus simple : c'est la commmande svn cp trunk tags/hachoir-0.6.0. Et pour crÃ©er une nouvelle version Ã partir d'un tag existant, idem : svn cp tags/hachoir-0.6.1 tags/hachoir-0.6.2. Enfin, le fait de conserver toutes les versions dans SubVersion permet de les comparer en utilisant le superbe outil meld.

Contributions

Je reÃ§ois de plus en plus de contributions. Le franÃ§ais Julien Muchembled, qui hÃ©berge hachoir.org (trac et subversion), s'est retirÃ© du projet. Il a dÃ©veloppÃ© la superbe interface hachoir-urwid qui m'a beaucoup aidÃ©e. Il a Ã©galement travaillÃ© sur les donnÃ©es fractionnÃ©es et dÃ©sordonnÃ©es (systÃ¨me de fichier, flux multimÃ©dias tels que Matroska et Ogg). Enfin, il avait patchÃ© Hachoir pour pouvoir hacher un fichier alimentÃ© par un pipe Unix.

RÃ©cemment, le canadien Cyril Zorin a rejoint le projet pour dÃ©velopper une interface graphique : hachoir-wx. Son objectif est un outil permettant d'aider Ã la rÃ©tro-ingÃ©nierie, c'est-Ã -dire d'arriver Ã deviner le format d'un fichier inconnu. Son interface est encore en dÃ©veloppement, mais permet dÃ©jÃ de naviguer dans l'arborescence des champs.

Je reÃ§ois de plus en plus de contribution. J'ai par exemple reÃ§u un parseur de vidÃ©o du jeu Spider-Man Ã©crit par Mike Melanson (le chef de projet de Flash pour Linux !), un parseur de sauvegarde ZSNES Ã©crit par la canadien Jason Gorski, et enfin un parseur complet de classe Java (fichier .class) Ã©crit par le franÃ§ais Thomas de Grenier de Latour. Pour la peine, j'ai crÃ©e une liste de diffusion : plus d'information sur la page de contact de hachoir.

J'ai rÃ©cement Ã©crit des parseurs pour les formats Flash : SWF (animation Flash) et FLV (conteneur vidÃ©o Flash). Au passage, j'ai Ã©crit un outil (swf_extractor.py) permettant d'extraire toutes les images et tous les sons d'un animation SWF. J'ai rÃ©ussi Ã rÃ©utiliser les parseurs JPEG et MPEG audio dans ces deux parseurs. Cela fait plaisir car Ã§a montre qu'Hachoir devient exhaustif.

Hier, j'ai ajoutÃ© le support des fichiers encodÃ©s et en particulier de fichiers compressÃ©s. On peut dÃ¨s lors ouvrir une animation Flash compressÃ©e et lire le contenu d'un fichier compressÃ© au format gzip ou bzip2. Ã€ terme, on pourra imaginer n'importe quel type de conversion : dÃ©chiffrement RSA, dÃ©codage base64, dÃ©chiffrage XOR, etc.

Petit Ã petit, je sens qu'Hachoir s'approche de la version 1.0. J'ai atteint la majoritÃ© des objectifs que je m'Ã©tais fixÃ©. Hachoir fait d'ailleurs parler de lui : Thierry Stoer a Ã©crit un bref article sur Hachoir dans le blog des formats ouverts et Mike Melanson en parle dans son blog.

aucun commentaire :: aucun trackback

« décembre 2009
lun	mar	mer	jeu	ven	sam	dim
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

PrÃ©requis

TÃ©lÃ©chargement

Installer les dÃ©pendances

La compilation proprement dite

C'est prÃªt !

Unladen Swallow

NouveautÃ©s de Python 2.6

NouveautÃ©s de Python 3.0

Trucs et astuces

Ctypes et Python

Fuzzer Python

Rapports de bugs Python 2.6

Publication de Fusil 0.9

Fuzzing de PyPy

Classement des interprÃ¨tes Python

SystÃ¨me multi-agents

Agents dans Fusil

Exemples d'agent

SystÃ¨me de notation

Projets de fuzzing

Types int et long

Types bytes et str

Python 3000 Ã§a sort quand ?

Types bytes et str

Annotation des fonctions

Argument sous forme de mot-clÃ©

Documents sur Python 3000

Utiliser les exceptions

Limiter la mÃ©moire

Limiter le temps processeur

Limiter la pile

Traitements automatiques

RÃ©utilisation des valeurs

Option --quality

hachoir-core

hachoir-parser

Hachoir version 0.6

CrÃ©ation d'une nouvelle version avec SubVersion

Contributions

Mes dÃ©veloppements rÃ©cents

Calendrier

Rechercher

Catégories

Archives

Liens

Syndication