Blog - mars 2008 - Blog Haypo

Par haypo, lundi 10 mars 2008 à 23:38 :: Blog

Dans le plus pur respect du syndrÃ´me NIH, j'ai Ã©crit mon outil de dÃ©tection de spam pour les commentaires Dotclear : antispam. Je sens que rien que le nom vous fait dÃ©jÃ trÃ©pigner d'impatience.

SystÃ¨me de notation

Je me suis inspirÃ© de mon travail sur la notation dans le projet Fusil pour noter les commentaires, ce qui n'a rien de rÃ©volutionnaire en soit (SpamAssassin le fait dÃ©jÃ ). J'ai Ã©crit des rÃ¨gles empiriques selon mes observations sur les spams. L'idÃ©e est de rechercher les caractÃ©ristiques typiques des spams puis de les transformer en rÃ¨gles.

Voici les rÃ¨gles utilisÃ©es actuellement :

Adresse de courriel : liste blanche/noire pour les domaines, voir conf/email_domains.txt (liste noire par dÃ©faut)
Mots clÃ©s : recherche de mots clÃ©s Ã partir d'une liste blanche/noire, voir conf/words.txt (liste noire par dÃ©faut)
Ratio des lettres latines majuscules et du nombre total de lettres latines : s'il y a plus de 35% de majuscules, le message gagne 5 points
Longueur du texte : si le texte hors liens externes contient moins de 30 lettres latines, le message gagne 2 points
Ratio d'url par domaine : s'il y a plus de 3 liens vers le mÃªme domaine (en moyenne), le message gagne 5 points
Pour chaque url, une liste blanche/noire (plutÃ´t liste blanche) permet d'attribuer un score selon le domaine. Si l'url ne correspond Ã aucun domaine, elle obtient une note de +1 point

Finalement, j'utilise peu de rÃ¨gles pour Ã©viter les faux-positifs (message lÃ©gitime dÃ©tectÃ© comme spam). Ce n'est pas nÃ©cessaire car je n'ai pas encore vu passer de faux-positif.

RÃ©sultat sur les commentaires de ce blog

En utilisant un score initial de -3, les commentaires lÃ©gitimes ont une note nÃ©gative entre -3 et -2. Pour les spams, j'ai observÃ© trois types selon la note moyenne :

(A) note de 0,5 Ã 2 : un ou deux liens, message court, texte crÃ©dible en anglais
(B) note de 15 Ã 25 : une dizaine de liens vers le mÃªme serveur avec quelques mots anglais alÃ©atoires
(C) note de 150 Ã 200 : grosse collection de liens et liste presque exhaustive des mots clÃ©s que j'ai mis en liste noire (ex: une vingtaine de variantes de Â« buy cheap viagra Â» dans le mÃªme message)

Les spams de type (B) et (C) sont triviaux Ã dÃ©tecter. Les plus pÃ©nibles Ã©tant les spams de type (A).

Exemple de spam pÃ©nible

Commentaire reÃ§u aujourd'hui, j'ai remplacÃ© les urls par xxx :

Author: brazilian <thongwaxingbrazilian@mail.com>
Website: http://xxxxxxxxx.nl/35424
IP: 218.16.224.243

- she reached for her clit. madam, i ve got arthritis,
<a href=  http://xxxxxxx.com/phpbb/barthololauries.html >waxing thong brazilian</a> and.

Le message contenait aussi deux caractÃ¨res Unicode invalides (U+0092 et U+0093). Analyse avec la configuration actuelle d'antispam pour ce blog :

Match URL (+1.0): http://...
Match URL (+1.0): http://...
Match email domain (+1.0): mail.com
-stdin- score: +0.00

Le message n'est pas dÃ©tectÃ© comme spam. J'ai donc ajoutÃ© les mots clit, brazilian, thong et waxing en liste noire pour gonfler la note jusqu'Ã +7.

FiabilitÃ© de l'antispam

AprÃ¨s une semaine de dÃ©veloppement sur antispam, je suis plutÃ´t content du rÃ©sultat. Bien que cet outil demande beaucoup de configuration manuelle, il supprime dÃ©jÃ environ 90% du spam de ce blog. Sachez que je reÃ§ois Ã peu prÃ¨s 100 spams par jour sur ce blog.

L'ancien moteur de spam Ã©tait fiable Ã 100% : il bloquait simplement tout message contenant un lien externe. J'essaye de le rendre un peu plus laxiste pour autoriser les liens externes.

AmÃ©lirations possibles

IdÃ©e pour amÃ©liorer antispam :

RÃ©utiliser du code (au moins des idÃ©es) des antispams existants (ex: Spam Karma)
Utiliser un filtre bayÃ©sien
Utiliser des listes noires (URL / IP / email) dynamiques
Filtrage horaire et/ou selon le jour de la semaine (je pense qu'il y a peu de commentaires lÃ©gitimes entre 2h et 7h)
Utiliser des listes blanches ou d'autres rÃ¨gles pour diminuer la note

Contactez moi directement si vous voulez tester antispam sur votre forum ou votre blog. L'intÃ©gration Ã©tant pÃ©nible Ã automatiser. Antispam est Ã©crit en Python et distribuÃ© sous licence GNU GPL.

Spam dans les forums, blogs, etc.

Par haypo, dimanche 9 mars 2008 à 02:26 :: Blog

Le spam dÃ©signe un Â« message non sollicitÃ© Â». Avant limitÃ© Ã la messagerie Ã©lectronique, le spam inonde aujourd'hui Internet en utilisant n'importe quel moyen de publier du texte avec des liens externes. Les plus touchÃ©s sont les forums (ex: phpbb) et les blogs (ex: dotclear). Plus gÃ©nÃ©ralement, plus la cible est populaire, plus elle a de chances d'Ãªtre spammÃ©e. DÃ¨s lors, n'importe quel formulaire public devient est cible potentielle.

Filtrage par test de turing

Pour limiter le spam, l'inscription aux forums est devenue pÃ©nible : besoin de confirmer l'inscription par courriel par exemple. De mÃªme, dÃ©poser un commentaire sur un blog demande souvent des talents en dÃ©codage de hiÃ©roglyphe (captchas). Le spam doit vraiment Ãªtre lucratif car qu'importe le niveau de complexitÃ© de la protection, elle est dÃ©jouÃ©e un jour ou l'autre. La meilleure parade aux captchas Ã©tant de demander Ã des humains de les dÃ©coder Ã votre place. Cette faille dÃ©joue l'ensemble des tests de turing !

Filtrage de l'enveloppe

On pourrait alors penser Ã filtrer l' Â« enveloppe Â» : les informations obtenues sur l'expÃ©diteur du message. Le nom de l'expÃ©diteur est gÃ©nÃ©rÃ© alÃ©atoirement et pourtant crÃ©dible, on ne peut pas en faire grand chose. Son adresse de courriel est souvent crÃ©e pour l'occasion sur un serveur offrant des adresses gratuites (ex: gmail). L'adresse IP semble une bonne piste pour bloquer un spammeur. Sauf que les spammeurs ont aussi trouvÃ© une parade : ils louent des serveurs Ã moindre coÃ»t pour Ã©mettre anonymement du spam. Ces serveurs peuvent faire parti d'un botnet : ordinateurs verrolÃ©s Ã l'insu d'internautes lÃ©gitimes. Bloquer une IP empÃªcherait un internaute lÃ©gitime de poster un commentaire. De toute maniÃ¨re, les spammeurs changent rÃ©guliÃ¨rement de serveurs (et donc d'adresse).

Filtrage du contenu

Si l'enveloppe n'est pas une information fiable, on peut se concentrer sur le contenu du message. Bien que chaque spam soit diffÃ©rent, on peut tout de mÃªme reconnaÃ®tre certaines caractÃ©ristiques gÃ©nÃ©rales :

un spam comporte au moins un lien externe (parfois une dizaine ou plus)
on retrouve les mÃªme mots tels que Â« porn Â», Â« download Â» ou encore Â« viagra Â»

Une fois de plus, ces caractÃ©ristiques ne sont pas fiables Ã 100%. Certains spammeurs contournent le blocage par mots-clÃ©s en modifiant lÃ©gÃ¨rement le terme : Â« viagra Â» devient Â« v1agra Â» par exemple. Concernant les liens externes, on commence Ã trouver des liens pointant sur google.com (ex: sur groups.google.com et pages.google.com) : bloquer un domaine est donc plutÃ´t hasardeux. Bien que les spams ne comportant aucun lien externe soient rares, bloquer tout message comportant un lien externe est trÃ¨s contraignant pour l'internate lÃ©gitime.

Pour dÃ©jouer les plans des robots, certains se protÃ¨gent en modifiant les formulaires de leur application. Une bidouille est d'ajouter un champ au formulaire. Ce champ contient un valeur spÃ©ciale ou est laissÃ©e vide : si le bot le modifie, le message est considÃ©rÃ© comme un spam. Ce champ peut Ãªtre cachÃ© (type HTML hidden ou cachÃ© par la mise en forme CSS) ou visible, auquel cas une mention avertira l'internaute de ne pas y toucher. Malheureusement, de telles pratiques relÃ¨vent de la sÃ©curitÃ© par l'obscuritÃ© et ne peut Ãªtre utilisÃ© Ã grande Ã©chelle. Une fois l'astuce connue, des robots vont la dÃ©jouer facilement.

Filtrage par pot de miel

Il existe des services mettant en place des pots de miel : forums, blogs et autres dÃ©diÃ©s Ã la rÃ©colte de spam. Cette collecte permet de crÃ©er une liste noire d'URL et/ou d'IP, exemples : surbl.org et projecthoneypot.org. La technique du pot de miel ne sert qu'Ã limiter la diffusion d'un spam.

Aucun espoir ?

C'est en Ã©crivant mon propre antispam pour ce blog que j'ai rÃ©alisÃ© l'ampleur du problÃ¨me. Bien qu'aucune protection citÃ©e n'est fiable Ã 100%, cumuler plusieurs solutions permet de bloquer l'essentiel du spam, allÃ©geant considÃ©rablement la charge du modÃ©rateur.

Malheureusement, plus un moyen de protection est efficace, plus il est utilisÃ©, plus les spammeurs vont se concentrer dessus pour le dÃ©jouer. La sÃ©curitÃ© par l'obscuritÃ© semble donc conseillÃ©e voir nÃ©cessaire. Des services comme Akismet reposent justement sur ce principe. Pourtant, je m'y oppose car c'est contraire Ã l'esprit de partage du logiciel libre !

Blog Haypo

Un nouvel antispam pour ce blog !

SystÃ¨me de notation

RÃ©sultat sur les commentaires de ce blog

Exemple de spam pÃ©nible

FiabilitÃ© de l'antispam

AmÃ©lirations possibles

Spam dans les forums, blogs, etc.

Filtrage par test de turing

Filtrage de l'enveloppe

Filtrage du contenu

Filtrage par l'obscuritÃ©

Filtrage par pot de miel

Aucun espoir ?

Calendrier

Rechercher

Catégories

Archives

Liens

Syndication

« mars 2008 »
lun	mar	mer	jeu	ven	sam	dim
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31