Blog Haypo

Dans le plus pur respect du syndrÃ´me NIH, j'ai Ã©crit mon outil de dÃ©tection de spam pour les commentaires Dotclear : antispam. Je sens que rien que le nom vous fait dÃ©jÃ trÃ©pigner d'impatience.

SystÃ¨me de notation

Je me suis inspirÃ© de mon travail sur la notation dans le projet Fusil pour noter les commentaires, ce qui n'a rien de rÃ©volutionnaire en soit (SpamAssassin le fait dÃ©jÃ ). J'ai Ã©crit des rÃ¨gles empiriques selon mes observations sur les spams. L'idÃ©e est de rechercher les caractÃ©ristiques typiques des spams puis de les transformer en rÃ¨gles.

Voici les rÃ¨gles utilisÃ©es actuellement :

Adresse de courriel : liste blanche/noire pour les domaines, voir conf/email_domains.txt (liste noire par dÃ©faut)
Mots clÃ©s : recherche de mots clÃ©s Ã partir d'une liste blanche/noire, voir conf/words.txt (liste noire par dÃ©faut)
Ratio des lettres latines majuscules et du nombre total de lettres latines : s'il y a plus de 35% de majuscules, le message gagne 5 points
Longueur du texte : si le texte hors liens externes contient moins de 30 lettres latines, le message gagne 2 points
Ratio d'url par domaine : s'il y a plus de 3 liens vers le mÃªme domaine (en moyenne), le message gagne 5 points
Pour chaque url, une liste blanche/noire (plutÃ´t liste blanche) permet d'attribuer un score selon le domaine. Si l'url ne correspond Ã aucun domaine, elle obtient une note de +1 point

Finalement, j'utilise peu de rÃ¨gles pour Ã©viter les faux-positifs (message lÃ©gitime dÃ©tectÃ© comme spam). Ce n'est pas nÃ©cessaire car je n'ai pas encore vu passer de faux-positif.

RÃ©sultat sur les commentaires de ce blog

En utilisant un score initial de -3, les commentaires lÃ©gitimes ont une note nÃ©gative entre -3 et -2. Pour les spams, j'ai observÃ© trois types selon la note moyenne :

(A) note de 0,5 Ã 2 : un ou deux liens, message court, texte crÃ©dible en anglais
(B) note de 15 Ã 25 : une dizaine de liens vers le mÃªme serveur avec quelques mots anglais alÃ©atoires
(C) note de 150 Ã 200 : grosse collection de liens et liste presque exhaustive des mots clÃ©s que j'ai mis en liste noire (ex: une vingtaine de variantes de Â« buy cheap viagra Â» dans le mÃªme message)

Les spams de type (B) et (C) sont triviaux Ã dÃ©tecter. Les plus pÃ©nibles Ã©tant les spams de type (A).

Exemple de spam pÃ©nible

Commentaire reÃ§u aujourd'hui, j'ai remplacÃ© les urls par xxx :

Author: brazilian <thongwaxingbrazilian@mail.com>
Website: http://xxxxxxxxx.nl/35424
IP: 218.16.224.243

- she reached for her clit. madam, i ve got arthritis,
<a href=  http://xxxxxxx.com/phpbb/barthololauries.html >waxing thong brazilian</a> and.

Le message contenait aussi deux caractÃ¨res Unicode invalides (U+0092 et U+0093). Analyse avec la configuration actuelle d'antispam pour ce blog :

Match URL (+1.0): http://...
Match URL (+1.0): http://...
Match email domain (+1.0): mail.com
-stdin- score: +0.00

Le message n'est pas dÃ©tectÃ© comme spam. J'ai donc ajoutÃ© les mots clit, brazilian, thong et waxing en liste noire pour gonfler la note jusqu'Ã +7.

FiabilitÃ© de l'antispam

AprÃ¨s une semaine de dÃ©veloppement sur antispam, je suis plutÃ´t content du rÃ©sultat. Bien que cet outil demande beaucoup de configuration manuelle, il supprime dÃ©jÃ environ 90% du spam de ce blog. Sachez que je reÃ§ois Ã peu prÃ¨s 100 spams par jour sur ce blog.

L'ancien moteur de spam Ã©tait fiable Ã 100% : il bloquait simplement tout message contenant un lien externe. J'essaye de le rendre un peu plus laxiste pour autoriser les liens externes.

Utiliser des listes noires (URL / IP / email) dynamiques
Utiliser des listes blanches ou d'autres rÃ¨gles pour diminuer la note

Contactez moi directement si vous voulez tester antispam sur votre forum ou votre blog. L'intÃ©gration Ã©tant pÃ©nible Ã automatiser. Antispam est Ã©crit en Python et distribuÃ© sous licence GNU GPL.

AprÃ¨s de dizaines de projets d'articles avortÃ©s (mort-nÃ©s), j'ai enfin rÃ©ussi Ã en finir un ! C'est l'article Â« Comment rÃ©aliser un fuzzer ? Â» qui est publiÃ© dans le magazine de sÃ©curitÃ© informatique MISC numÃ©ro 36 (mars/avril 2008). J'explique quels sont les points critiques lorsqu'on Ã©crit un fuzzer : gÃ©nÃ©ration des donnÃ©es, surveiller la cible, auto-configuration du fuzzer, etc. Image de la premiÃ¨re des six pages de l'article :

L'article parle indirectement de mon travail sur le projet Fusil. Un deuxiÃ¨me article plus pratique et dÃ©diÃ© Ã Fusil devrait suivre dans le prochain MISC (reste Ã l'Ã©crire...).

Je regrette d'avoir oubliÃ© la section remerciements Ã la fin de l'article. Alors je profite de ce blog pour remercier Sebastien Tricaud, Feth Arezki, StÃ©phane Marchesin et ceux que j'ai oubliÃ© pour leurs relectures attentives et leurs conseils avisÃ©s. Merci aussi Ã Anthony CarrÃ© pour m'avoir encouragÃ© Ã Ã©crire pour des magazines papiers :-)

Au passage, si vous Ãªtes amateur de sÃ©curitÃ© informatique mais que vous ne connaissez pas encore MISC, je vous en conseille la lecture. Le prix Ã©levÃ© de 8â‚¬ est Ã diviser par deux car c'est un bimensuel : ce qui donne 4â‚¬/mois. D'ailleurs, il faut deux bons mois pour digÃ©rer les articles souvent complexes ;-)

lun	mar	mer	jeu	ven	sam	dim
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Blog Haypo

Un nouvel antispam pour ce blog !

SystÃ¨me de notation

RÃ©sultat sur les commentaires de ce blog

Exemple de spam pÃ©nible

FiabilitÃ© de l'antispam

AmÃ©lirations possibles

Comment rÃ©aliser un fuzzer ?

Calendrier

Rechercher

Catégories

Archives

Liens

Syndication