octobre 2007 - Blog Haypo

samedi 27 octobre 2007

Analyse statique de code et audit de sÃ©curitÃ©

Par haypo, samedi 27 octobre 2007 à 04:29 :: SÃ©curitÃ© informatique

Alors que je cherchais un outil d'analyse statique pour PHP, j'Ã©tais tombÃ© sur la page Tool Survey du projet Software Assurance Metrics And Tool Evaluation. Ce projet, menÃ© par le NIST et financÃ© par le DHS, m'intÃ©resse car il vise Ã tester et classer divers outils servant pour un audit de sÃ©curitÃ©. Plus particuliÃ¨rement, la page Source Code Security Analyzers dresse une longue liste d'outils d'analyse statique de code.

Rien ne vaut une relecture manuelle et attentive

Je garde un souvenir amer de l'analyse statique. J'avais testÃ© SPlint, FlawFinder et RATS pour m'aider Ã relire le code source du pare-feu NuFW Ã©crit en C. Ces outils sont peu efficaces car on est rapidement noyÃ©s sous une tonne de faux positifs. On perd finalement plus de temps Ã affiner leur configuration qu'Ã trouver des bugs. Je prÃ©fÃ¨re encore une relecture manuelle et attentive du code.

Quand les ressources humaines sont insuffisantes pour relire toute la base de code, il faut choisir efficacement les portions de code Ã auditer. Il vaut mieux commencer par celles qui traitent les donnÃ©es venant de l'utilisateur. Une autre approche est de rechercher des erreurs classiques comme les dÃ©passements de tampon, erreur de formatage printf, injection SQL, etc. Je vous conseille d'ailleurs d'aller lire les recommandations du CERT : Secure Coding Standards.

Trouver une erreur memset avec Google

On peut s'amuser Ã exploiter les moteurs de recherche de code pour trouver des failles connues : koders.com, krugle.com et Google codesearch. Seul Google codesearch supporte les expressions rÃ©guliÃ¨res, sans rÃ©fÃ©rence arriÃ¨re malheureusement. On peut Ã©galement trouver des mots de passe codÃ©s en dur et autres indiscrÃ©tions. C'est le moment de redÃ©couvrir la Google Hacking Database pour vous donner des idÃ©es. Recherchons par exemple une utilisation incorrecte de la fonction memset() par l'inversion du 2e et 3e argument. Utilisez le motif suivant avec Google codesearch :

memset\([^,]+,[^,]+,\ *0\)

On trouve cette erreur dans divers projets dont certains trÃ¨s connus : OpenSSL, GnuPG, Prelude, Linux, Mozilla, Python, Parrot, Kaffe, aMule, ÂµClibc, libgphoto2, ATI gatos, WINE, Blender, etc. AprÃ¨s vÃ©rification dans quelques projets (en particulier OpenSSL, GnuPG et Prelude !), l'erreur est corrigÃ©e dans la derniÃ¨re version. Le fait qu'elle ait existÃ© un temps prouve que de meilleurs outils d'analyse statique seraient utiles !

Autre exemple : erreur memcpy

L'instruction Â« memcpy(dest, source, sizeof(dest)); Â» est incorrecte quand dest est un pointeur. La taille copiÃ©e est celle du pointeur et non pas celles des donnÃ©es pointÃ©es ! Voici donc deux commandes pour rechercher des utilisations incorrectes des fonctions memcpy(), memmove(), strncpy(), g_memdup(), memset() et wmemset() :

find DOSSIER -name "*.c"|xargs egrep -H '(memcpy|memmove|strncpy|memset|g_memdup)\(([^,]+), .*sizeof\(\2\)\)'
find DOSSIER -name "*.c"|xargs egrep -H 'w?memset([^,]+,[^,]+, *0)'

Sauf que strncpy() (et ses voisines) peuvent fonctionner pour Â« strncpy(dest, source, sizeof(dest)); Â» quand dest n'est pas pas un pointeur mais un tableau de taille fixe comme Â« char buffer[256]; Â»...

ComplexitÃ© McCabe d'une fonction

Pour finir, un ami (misc) m'a fait dÃ©couvrir aujourd'hui l'outil pmccabe par le billet The Cyclomatic Horror From Outer Space. Ce programme sert Ã estimer la complexitÃ© d'une fonction sachant qu'une note supÃ©rieure Ã 50 indique une fonction Â« non testable (risque trÃ¨s Ã©levÃ©) Â». Je me suis amusÃ© Ã lancer pmccabe sur la GNU libc avec la commande :

rm /tmp/out; find . -name "*.c"|xargs pmccabe >>/tmp/out; sort -nr /tmp/out|head

Voici les pires fonctions :

494 : scanf()
230 : fnmatch()
222 : strtod()
200 : collate_read()
197 : dl_main()
175 : wordexp()

Dans les commentaires du blog, on apprend que gcc explose le record avec une fonction Ã plus de 1000. Une scÃ©ance de refactoring cuisse-abdo-fessier ne ferait pas de mal Ã la libc et Ã gcc...

8 commentaires :: aucun trackback

mercredi 24 octobre 2007

Dasher, ChaÃ®ne de Markov, N-gramme, Google et Pangramme

Par haypo, mercredi 24 octobre 2007 à 01:20 :: Informatique

Comme j'ai la mÃ©moire courte, j'oublie souvent le nom d'articles qui m'intÃ©ressent pourtant beaucoup. Ce billet reprend donc des idÃ©es (concepts, techniques, etc.) qui me passionnent mais que j'oublie Ã rÃ©pÃ©tition.

Logiciel dasher

Aujourd'hui, je parlais de dasher Ã un ami. Ce logiciel sert Ã Ã©crire du texte avec un dispositif de pointage ayant uniquement 2 axes (X et Y) tel qu'une souris, une manette de jeu ou les yeux (avec une camÃ©ra). L'animation ci-dessous en prÃ©sente le fonctionnement :

Le point qui m'intriguait Ã©tait de savoir comment dasher dÃ©cide quelles lettres proposer Ã l'utilisateur pendant qu'il Ã©crit son texte. Effectivement, dasher ne propose pas simplement l'alphabet, les chiffres et la ponctuation Ã chaque fois : ce serait trop pÃ©nible.

ChaÃ®nes de Markov

J'ai alors pensÃ© aux chaÃ®nes de Markov : un modÃ¨le qui permet justement de rÃ©pondre Ã ce besoin. Je maÃ®trise mal le sujet et je vais donc expliquer avec mes mots ce que j'en ai compris. Les chaÃ®nes de Markov servent Ã prÃ©dire quelles lettres sont les plus probables selon celles prÃ©cÃ©demment saisies. On utilise pour cela des Â« N-grammes Â» oÃ¹ N est le nombre de lettres, exemple de bigrammes : Â« de Â», Â« la Â», etc. En partant d'un corpus (grosse base de textes), on va construire nos chaÃ®nes de Markov donnant la probabilitÃ© d'apparition des N-grammes dans la langue du corpus. Ã€ partir de ces rÃ©sultats, il y a une autre application rigolote : la gÃ©nÃ©ration de texte alÃ©atoire. On peut effectivement crÃ©e un texte purement artificiel qui a l'air vrai mais est en fait le rÃ©sultat d'un ordinateur ! Articles WikipÃ©dia Ã lire pour en savoir plus : algorithme de Viterbi et modÃ¨le de Markov cachÃ©.

N-grammes de Google

La sociÃ©tÃ© Google a annoncÃ© en aoÃ»t 2006 qu'elle allait distribuer ses N-grammes. Ce qui a Ã©tÃ© fait en septembre 2006 par l'intermÃ©diaire de l'Institut des donnÃ©es linguistiques qui vend ces donnÃ©es sous forme de 6 DVD. L'ensemble est proposÃ© au prix prix de US$150 plus US$50 pour les non-membres, ce qui fait un total de 146 â‚¬. Par contre, interdiction de rediffuser ces donnÃ©es ou de les utiliser Ã des fins commerciales ! Dommage car c'est, apparemment, la plus grosse base de donnÃ©es mondiale de N-grammes : 24 Go compressÃ©s par gzip en UTF-8 comprenant 1.024.908.267.229 lexÃ¨mes et 95.119.665.584 phrases. Il faut savoir que Google a utilisÃ© Internet comme corpus. On peut donc se demander si c'est normal qu'il revende ses rÃ©sultats, car trÃ¨s peu de sites Internet sont libres de droit !

Pangramme

Pour finir, un article qui n'a rien Ã voir mise Ã part la sonoritÃ© avec N-gramme : Pangramme. Cet article a rÃ©solu une Ã©nigme que je me posais depuis de nombreuses annÃ©es : pourquoi Windows affiche Â« Portez ce vieux whisky au juge blond qui fume Â», une phrase qui sonne faux, pour la prÃ©visualisation d'une police de caractÃ¨res ? C'est simple, c'est une des phrases les plus courtes comportant les 26 lettres de l'alphabet franÃ§ais !

un commentaire :: aucun trackback

mardi 16 octobre 2007

Information, Ã©nergie et ordinateur rÃ©versible

Par haypo, mardi 16 octobre 2007 à 01:07 :: Informatique

En lisant le journal Â« Une Ã©quivalence entre l'Ã©nergie et l'information ? Â», je me suis mis Ã rechercher des articles sur les questions soulevÃ©es pour tenter d'y rÃ©pondre. J'ai croisÃ© les informations avec les articles que j'avais dÃ©jÃ collectÃ©s sur les ordinateurs rÃ©versibles. Le billet qui suit est un petit Ã©tat de l'art en vrac sur le lien entre l'Ã©nergie et l'information et ses diverses applications actuelles et futures.

4 commentaires :: aucun trackback

lundi 15 octobre 2007

Linus corrige un bug dans gcc

Par haypo, lundi 15 octobre 2007 à 13:19 :: Programmation

J'avais dÃ©jÃ lu que le noyau Linux est un bon test pour une version de gcc. J'en ai maintenant la preuve avec une nouvelle dÃ©monstration de Linus Torvald. L'histoire commence avec un courriel du dÃ©veloppeur noyau suractif Ingo Molnar le 2 octobre vers minuit. Six heures plus tard, Linus rÃ©pond que c'est un bogue du compilateur gcc.

Il montre que le code en langage machine citÃ© dans le Oops noyau recopiÃ© dans le courriel d'Ingo ne correspond pas au code source C du noyau :

Code: 89 45 f0 76 77 eb 7a 8b 55 ec 8b 4d ec 
89 f7 8b 02 89 c2 03 51 0c 29 c7 89 f0 89 79 
0c 29 d0 eb 6c 89 f8 88 06 46 eb 54 8b 55 f0 
<8b> 3a 42 89 55 f0 89 f9 84 c9 74 d0 8b 45 
08 0f be d9 89 da e8

Il Ã©crit :

Lookie here:
- the bug happens on this:
       char c = *p++;
- which has been compiled into
       8b 3a           mov    (%edx),%e
which is a *word* access.

Quarante minutes plus tard, Ingo rÃ©pond qu'il demeure perplexe Â« hm, it's 4.0.2. Not the latest & greatest but i've been using it for 2 years and this would be the first time it miscompiles a 32-bit kernel out of tens of thousands of successful kernel bootups. Â». Mais les Ã©changes suivants avec d'autres interlocuteurs rÃ©ussissent Ã persuader Ingo.

Je pense que le bogue gcc 4.0.2 a Ã©tÃ© rapportÃ© mais je n'en ai pas trouvÃ© les traces. C'est quand mÃªme un bel exploit de l'expertise Linus qui semble habituÃ© aux bogues du compilateur.

un commentaire :: aucun trackback

mardi 2 octobre 2007

PHP, outil de torture pour dÃ©veloppeur

Par haypo, mardi 2 octobre 2007 à 01:04 :: Programmation

Je travaille actuellement sur le projet Nuface pour INL. Environ cinq personnes travaillent ou ont travaillÃ© sur ce projet Ã©crit en PHP (3/4) et Python (1/4). Le qualitÃ© du code source laisse Ã dÃ©sirer. Je fais de mon mieux pour simplifier le code tout en le rendant plus simple Ã comprendre, mais c'est une tÃ¢che difficile et pÃ©nible. J'ai alors cherchÃ© des outils pour m'aider dans ma tÃ¢che.

Analyse statique de code

J'ai cherchÃ© des outils d'analyse statique de code pour PHP. Malheureusement, je n'en ai trouvÃ© que quatre : Pixy, SWAAT, php-sat et PHP String Analyzer (phpsa). Les deux premiers sont dÃ©diÃ©s Ã la sÃ©curitÃ©, ce qui ne m'intÃ©resse pas (injection SQL et XSS). phpsa est un drÃ´le de projet dont je n'ai pas compris l'intÃ©rÃªt, et j'ai donc finalement testÃ© php-sat. L'installation est longue car il n'existe aucun paquet Ubuntu Feisty, ni pour php-sat, ni pour les nombreuses dÃ©pendances. Ordre dans lequel il faut les installer (de mÃ©moire) :

aterm (2.5)
sdf2 (2.4)
strategoxt (0.17)
php-front (0.1pre401)
php-sat (0.1pre344)

Une fois que j'ai terminÃ© de tout compiler et installer, j'obtiens ce joli message :

$ php-sat -i index.php
[ php-sat | error ] invalid box:
        KnownString{SafetyLevel([KnownString])}

Je ne comprend rien Ã ce message d'erreur cryptique que j'obtiens qu'importe le fichier passÃ© en argument. Ayant passÃ© deux heures Ã tout installer, je suis plutÃ´t dÃ©Ã§u et dÃ©cide d'abandonner. La bonne pratique serait de contacter Eric Bouwers, l'auteur de php-sat pour lui rapporter mon problÃ¨me, mais je ne l'ai pas (encore) fait.

Note : L'outil SWAAT a l'air d'Ãªtre un bon outil pour trouver rapidement des failles de sÃ©curitÃ© dans vos applications.

Eclipse et PDT

Un ami â€” feth â€” m'a montrÃ© les fonctions de refactoring de l'environnement de dÃ©veloppement Eclipse. BluffÃ© par la facilitÃ© de renommer une variable ou crÃ©er une sous-fonction, je me suis dÃ©cidÃ© Ã l'installer pour pouvoir l'utiliser sur du code PHP. Une petite recherche m'a guidÃ© vers PHPEclipse et PDT. Le premier n'est plus dÃ©veloppÃ© en faveur du second qui est sponsorisÃ© par Zend, entreprise Ã l'origine du langage PHP. Zend emploie Yossi Leon pour travailler sur ce projet Ã plein temps.

J'ai d'abord installÃ© Eclipse via Ubuntu : c'est la version 3.2 qui est disponible. Or quand j'ai voulu ajouter le greffon PDT, j'apprend qu'il faut la version 3.3 d'Eclipse. D'ailleurs, je rÃ©alise au passage que PDT est sorti en version 1.0 le 18 septembre dernier, c'est donc tout frais !

J'ai alors installÃ© Eclipse en tÃ©lÃ©chargeant Eclipse Classic (eclipse-SDK-3.3.1-linux-gtk.tar.gz). Pour importer le projet Nuface, j'ai d'abord installÃ© Subclipse, le greffon Subversion.

Finalement, tout s'est bien emboÃ®tÃ© : Nuface s'ouvre Ã merveille dans Eclipse additionnÃ© de Subclipse et PDT. Eclipse affiche directement des avertissements sur la documentation Ã©crite en docbook (format basÃ© sur XML). En corrigeant l'erreur sur le charset incorrect, il arrive ensuite Ã dÃ©tecter les erreurs de DTD (docbook). Chapeau !

Enfin, quand je cherche la fonction de refactoring Â« crÃ©er une sous-fonctions Â» â€” aprÃ¨s deux heures d'installation â€” je dÃ©couvre que la fonction n'existe tout simplement pas ! Seule la fonction pour renommer une variable ou une fonction est disponible dans PDT 1.0. Or j'avais installÃ© Eclipse uniquement pour cette fonction... grosse dÃ©ception.

Plantage PHP

Pour finir en beautÃ©, aujourd'hui j'ai trouvÃ© un bug critique dans l'interprÃ©teur PHP. J'ai mis trois heures Ã isoler un bug ridicule qui fait planter le processus Apache (child pid 12946 exit signal Segmentation fault (11)). Les dÃ©tails du plantage sont disponibles dans mon rapport de bug (#42817). Je pense que vu la popularitÃ© de PHP, ce bug peut Ãªtre une faille de sÃ©curitÃ©.

PHP est Ã vomir

Ã‰tant un programmeur de longue date, je suis trÃ¨s dÃ©Ã§u de PHP. Langage crÃ©e en 1994, sa derniÃ¨re version majeure (PHP5) Ã©limine quelques dÃ©fauts du modÃ¨le objet et comble certaines lacunes (ex: gestion des exceptions). Mais PHP 5.2 ne supporte pas Unicode et est vraiment trop laxiste selon moi. En particulier, accÃ©der Ã une variable indÃ©finie ou Ã une clÃ© inexistante d'un tableau devrait Ãªtre proscrit. Pour que la programmation en PHP soit supportable, il faut travailler dans un niveau d'avertissement maximum : Â« error_reporint(E_ALL); Â». Je vous conseille de jetter un Å“il au fichier debug.php de Nuface, il contient en particulier un gestionnaire d'erreur Ã©crit PHP (nuface_error_handler).

Bon, moi je vais retourner coder des tests unitaires pour SimpleTest... Pour information, la version CVS offre une mÃ©thode expectException(), nÃ©cessaire pour pouvoir tester les exceptions.

4 commentaires :: aucun trackback

Par haypo, mardi 2 octobre 2007 à 00:35 :: Humeur

Mon premier est un junkie

Je suis un peu tombÃ© sur ce blog par hasard : webjunkie.fr. Un chouette habillage graphique sur le ton de la dÃ©connade, j'aime.

Et puis les autres (ce blog est un bouillon, on y trouve de tout) :

Mon second est bien bien bien

Le blog 404 est mort, vive le blog bienbienbien.net !

un commentaire :: aucun trackback

Compilateurs C libres

Par haypo, mardi 2 octobre 2007 à 00:12 :: Programmation

Suite Ã l'annonce de l'intÃ©gration de PCC dans NetBSD, je me suis intÃ©ressÃ© aux compilateurs libres qui existent. En chatouillant Google et WikipÃ©dia, j'ai obtenu cette petite liste :

GCC (GNU Compiler Collection)
- Licence GNU GPLv2 avec un poil de LGPL
- Projet lancÃ© en 1985 par Richard Stallman et dÃ©veloppÃ© aujourd'hui en partie par RedHat. Fait parti du projet GNU.
- IntÃ©grÃ© dans de nombreux IDE. Exemples : DJGPP (MS-DOS) ; MinGW, Cygwin et Dev-C++ (Windows) ; etc.
PCC (Portable C Compiler)
- Licence BSD
- Projet lancÃ© dans la fin des annÃ©es 1970 par Stephen C. Johnson
- Plus d'informations dans les commentaires de l'annonce linuxfr et des critiques de gcc
Watcom
- Logiciel libÃ©rÃ© en 2003 : OpenWatcom (licence)
- Logiciel propriÃ©taire ayant pour origine un compilateur Fortran Ã©crit en 1965 par des Ã©tudiants de l'UniversitÃ© de Waterloo (Canada). Une version optimisÃ©e pour le C et pour PC est apparue en 1988 (Watcom C 6.0). Lire l'histoire complÃ¨te.
- Compilateurs de tous les jeux MS-Dos de 1993 Ã 1996 (DOOM, Descent et Duke Nukem 3D, etc.)
LLC (Local C Compiler)
- DÃ©veloppÃ© par Chris Fraser et David Hanson
- Projet de l'UniversitÃ© de Princeton
- Logiciel libre ?
- IntÃ©grÃ© dans l'IDE Â« Lcc-win32 Â»
SDCC (Small Device C Compiler)
- Licence GNU GPL
- Projet lancÃ© Sandeep Dutta et ouvert aux contributions (Sourceforge) en 1999
TenDRA
- Projet initiÃ© par la DERA (agence du dÃ©partement de la DÃ©fense du Royaume-Uni) au milieu des annÃ©es 1990
- Licence BSD

Cette liste est sÃ»rement incomplÃ¨te, mais je pense que les compilateurs libres les plus populaires y sont listÃ©s. Consultez Ã©galement la liste des compilateurs C de WikipÃ©dia anglophone. Il existe de nombreux compilateurs commerciaux dont certains sont gratuits sous certaines conditions : Microsoft (Visual Studio), Intel (ICC), Borland (Turbo C, C++ Builder), ...

Pour information, un programme C exÃ©cutÃ© dans LLVM 2.0 (Low Level Virtual Machine) est 20% plus rapide que lorsqu'il est exÃ©cutÃ© avec GCC 4.2. On peut donc supposer que LLVM a accÃ¨s Ã des algorithmes d'optimisation auxquels GCC n'a pas accÃ¨s (sÃ»rement parce que GCC est statique alors que LLVM est dynamique).

Perso, je suis dÃ©Ã§u que PyPy n'ai pas rÃ©ussi Ã Ãªtre plus rapide que CPython (l'implÃ©mentation de rÃ©fÃ©rence en C) car pourtant sa technologie Ã©tait bien plus Ã©voluÃ©e :-( Apparemment, PyPy est plus un laboratoire d'expÃ©rimentation qu'une implÃ©mentation optimisÃ©e de Python.

5 commentaires :: aucun trackback

Blog Haypo

Analyse statique de code et audit de sÃ©curitÃ©

Rien ne vaut une relecture manuelle et attentive

Trouver une erreur memset avec Google

Autre exemple : erreur memcpy

ComplexitÃ© McCabe d'une fonction

Dasher, ChaÃ®ne de Markov, N-gramme, Google et Pangramme

Logiciel dasher

ChaÃ®nes de Markov

N-grammes de Google

Pangramme

Information, Ã©nergie et ordinateur rÃ©versible

Linus corrige un bug dans gcc

PHP, outil de torture pour dÃ©veloppeur

Analyse statique de code

Eclipse et PDT

Plantage PHP

PHP est Ã vomir

Deux blogs pour se changer les idÃ©es

Mon premier est un junkie

Mon second est bien bien bien

Compilateurs C libres

Calendrier

Rechercher

Catégories

Archives

Liens

Syndication

« octobre 2007 »
lun	mar	mer	jeu	ven	sam	dim
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31