SÃ©curitÃ© informatique - juin 2008

Usage des gÃ©nÃ©rateurs de nombres pseudo-alÃ©atoires

Par haypo, mardi 10 juin 2008 à 00:00 :: SÃ©curitÃ© informatique

Exigences vis Ã vis d'un gÃ©nÃ©rateur de nombres pseudo-alÃ©atoires

Les gÃ©nÃ©rateurs de nombres pseudo-alÃ©atoires sont utilisÃ©s principalement Ã deux fins :

Simulation : simulation physique, jeux vidÃ©os, etc.
SÃ©curitÃ© : gÃ©nÃ©rer un secret pour garantir la confidentialitÃ©

Dans les deux domaines, la qualitÃ© du gÃ©nÃ©rateur est importante. Si un gÃ©nÃ©rateur est biaisÃ©, c'est-Ã -dire que la distribution n'est pas Ã©quitable entre les diffÃ©rentes valeurs possibles, le rÃ©sultat de la simulation sera invalide (ou bien simplement imprÃ©cis) et la confidentialitÃ© peut Ãªtre comprise. Par contre, la simulation privilÃ©gie la vitesse du gÃ©nÃ©rateur. Alors que pour la sÃ©curitÃ© on se donne les moyens pour qu'il soit difficile de deviner les nombres prÃ©cÃ©demment gÃ©nÃ©rÃ©s et les prochains nombres gÃ©nÃ©rÃ©s (quitte Ã ce que le gÃ©nÃ©rateur soit plus lent), ce qui revient Ã deviner quel est l'Ã©tat interne du gÃ©nÃ©rateur Ã©tant donnÃ© qu'un algorithme est dÃ©terministe.

GÃ©nÃ©rateur biaisÃ©

Reprenons l'exemple de RANDU, un gÃ©nÃ©rateur biaisÃ© (les bits de poids faible sont peu alÃ©atoires). Si on utilise 1 + rand() % 6 pour simuler un lancÃ© de dÃ©, on va obtenir une suite du genre :

  1, 3, 1, 5, 3, 3, 1, 5, ...

Les faces 2, 4 et 6 ne sont jamais tirÃ©es !

Inverser un gÃ©nÃ©rateur congruentiel linÃ©raire

Il est possible de deviner l'Ã©tat interne d'un gÃ©nÃ©rateur congruentiel linÃ©raire (LCG) en ne connaissant qu'un seul nombre gÃ©nÃ©rÃ©. L'algorithme RANDU est :

  x(n+1) = (x(n) * 65539) % 2147483648

Avec x(0) : graine du gÃ©nÃ©rateur. On peut exÃ©cuter le gÃ©nÃ©rateur Ã l'envers en calculant :

  y(n+1) = (y(n) / 65539) % 2147483648

Sachant que diviser revient Ã multiplier par l'inverse, x / 65539 <=> x * (1 / 65539), on va calculer l'inverse 65539 modulo 2147483648 avec le thÃ©orÃ¨me des restes chinois. En pratique, on utilise l'identitÃ© de Bezout. Fonction Python qui calcule les coefficients u et v tels quel a Â· u + b Â· v = 1 :

def bezout(a, b):
  u0 = 1; u1 = 0
  v0 = 0; v1 = 1
  while 1:
    q = a // b
    r = a % b

    u0, u1 = u1, u0 - q*u1
    v0, v1 = v1, v0 - q*v1

    if r != 0:
      a = b
      b = r
    else:
      break

  return (u0, v0)

On calcule alors bezout(65539, 2147483648) = (477211307, -14564), ce qui donne :

  65539 Â· 477211307 - 2147483648 Â· 14564 = 1

  (477211307 * 65539) % 2147483648 = 1

Finalement, y(n+1) = (y(n) * 477211307) % 2147483648.

Exemple :

 x(0) = 42
 x(1) = 2752638
 x(2) = 16515450
 x(3) = 74318958

On utilisant x(3), on va pouvoir gÃ©nÃ©rer les nombres prÃ©cÃ©dents :

 y(0) = 74318958
 y(1) = 16515450
 y(2) = 2752638
 y(3) = 42

On a donc rÃ©ussi Ã retrouver les nombres prÃ©cÃ©dents jusqu'Ã la graine (42). MÃªme si le gÃ©nÃ©rateur ne dÃ©livre que quelques bits de son Ã©tat interne (ex: rand() = x(n) & 0xffff), on peut retrouver l'Ã©tat interne en utilisant une recherche exhaustive (si on dispose de quelques nombres successifs).

Solutions

Pour rÃ©Ã©quilibrer la distribution d'un gÃ©nÃ©rateur, on peut l'amÃ©liorer en utilisant diffÃ©rrentes techniques :

Utiliser la paritÃ© du flux
Utiliser le mapping de transition (technique de Von Neumann)
Utiliser la transformÃ©e de Fourier discrÃ¨te (ou une transformation de Fourrier rapide, FFT)
Utiliser la compression (en zappant les entÃªtes et autres parties Â« fixes Â»)

Lire la RFC 1750 pour les sources et les dÃ©tails sur ces techniques.

Pour empÃªcher qu'un pirate arrive Ã deviner l'Ã©tat interne du gÃ©nÃ©rateur, on peut rajouter une fonction de hachage sur la sortie du gÃ©nÃ©rateur (ex: MD5, SHA-1, ...). Il est toujours possible d'inverser la fonction de hachage, mais c'est beaucoup plus difficile !

DÃ©veloppement de la bibliothÃ¨que Hasard

Par haypo, lundi 9 juin 2008 à 13:57 :: SÃ©curitÃ© informatique

Suite au bug OpenSSL de Debian, je me suis Ã nouveau intÃ©ressÃ© de prÃ¨s aux gÃ©nÃ©rateurs de nombres pseudo-alÃ©atoires (PRNG). J'ai commencÃ© Ã Ã©crire la bibliothÃ¨que Hasard qui contient plusieurs algorithmes pour gÃ©nÃ©rer des nombres et des fonctions de haut niveau : int(min, max), bool(), bytes(size), etc.

Outils ENT et Dieharder

J'ai utilisÃ© le programme ENT pour tester la qualitÃ© des algorithmes. ENT utilise :

Test d'entropie,
Test du Ï‡Â²,
Estimation de PI par la mÃ©thode de Monte-Carlo avec calcul de l'erreur en pourcentage
Calcul de la moyenne arithmÃ©tique : (x1+x2+...+xn) / n. La valeur parfaite est 255 / 2 = 127,5.
Coefficient de corrÃ©lation en sÃ©rie (?)

ENT n'accepte en entrÃ©e que des fichiers contenant des octets (pseudo-)alÃ©atoires. On ne peut donc pas tester la qualitÃ© d'un gÃ©nÃ©rateur de nombre flottants par exemple. Exemple de sortie (algorithme RANDU avec l'opÃ©rateur pow2(8)) :

Entropy = 6.000000 bits per byte.

Optimum compression would reduce the size
of this 262144 byte file by 25 percent.

Chi square distribution for 262144 samples is 786432.00, and randomly
would exceed this value 0.01 percent of the times.

Arithmetic mean value of data bytes is 126.0000 (127.5 = random).
Monte Carlo value for Pi is 2.999862669 (error 4.51 percent).
Serial correlation coefficient is 0.322338 (totally uncorrelated = 0.0).

Il existe Ã©galement le programme Dieharder qui accepte en entrÃ©e des nombres de 32 bits non signÃ©s dans un fichier binaire ou un fichier texte. Il utilise des tests bien plus rigoureux, mais comme je ne sais pas les interprÃ©ter, je ne vais pas commenter.

C'est pas trÃ¨s rigolo tout Ã§a, alors voyons un peu des dessins et schÃ©mas qui permettent de distinguer le bon chasseur du mauvais chasseur. Image gÃ©nÃ©rÃ©e Ã partir des 8 bits de poids faible de l'algorithme RANDU :

Chaque pixel utilise une valeur du gÃ©nÃ©rateur comme couleur. On voit clairement que l'algorithme n'est pas du tout alÃ©atoire ! Pour reproduire l'image :

$ cd tests
$ ./gen_files.py --rng=randu --op=pow2 --bits=8 randu.dat
$ ./draw_pil.py --width=300 --height=300 randu.dat

$ ./gnuplot.py randu.dat --point=2

Script de tests de la bibliothÃ¨que Hasard

Le script gen_files.py gÃ©nÃ¨re un fichier au format texte plat qui contient les nombres gÃ©nÃ©rÃ©s par l'algorithme RANDU pour l'opÃ©rateur pow2(8) (gÃ©nÃ¨re un nombre dans l'intervalle [0; 255]). Lire file_format.rst pour voir le format de ce fichier. Le script file_info.py calcule l'entropie des nombres gÃ©nÃ©rÃ©s, la valeur maximale et la valeur minimale.

$ ./file_info.py randu.dat
Engine: randu
Seed: linux_urandom
Range: 0..255
Operation: pow2
Count: 262144
Minimum: 1
Maximum: 251
Entropy: quality=75.00%, value=6.0000/8.0000

On voit que seul 6 bits sur 8 sont rÃ©ellement alÃ©atoires (2 bits sont invariants) et que l'intervalle annoncÃ© est incorrect : 0..255 versus 1..251.

J'aime bien l'algorithme RANDU car il est vraiment mauvais et il permet donc de tester l'outillage de test :-)

Pour la suite

Ma bibliothÃ¨que est encore en chantier. J'ai beaucoup travaillÃ© sur l'outillage pour tester la sortie des algorithmes en comparant avec d'autres bibliothÃ¨ques comme Python, PHP ou la libc. La version 0.2 n'inclut par encore ce travail, Ã§a sera le cas pour la prochaine version 0.3 qui n'est pas encore publiÃ©e. En attendant, vous pouvez utiliser le dÃ©pÃ´t Mercurial.

Je ne sais pas trop ce qu'Hasard va donner au final, mais en tout cas Ã§a avance :-)

Blog Haypo

Usage des gÃ©nÃ©rateurs de nombres pseudo-alÃ©atoires

Exigences vis Ã vis d'un gÃ©nÃ©rateur de nombres pseudo-alÃ©atoires

GÃ©nÃ©rateur biaisÃ©

Inverser un gÃ©nÃ©rateur congruentiel linÃ©raire

Solutions

DÃ©veloppement de la bibliothÃ¨que Hasard

Outils ENT et Dieharder

ReprÃ©sentation visuelle

Script de tests de la bibliothÃ¨que Hasard

Pour la suite

Calendrier

Rechercher

Catégories

Archives

Liens

Syndication

« juin 2008 »
lun	mar	mer	jeu	ven	sam	dim
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30