Blog Haypo

Comme j'ai la mÃ©moire courte, j'oublie souvent le nom d'articles qui m'intÃ©ressent pourtant beaucoup. Ce billet reprend donc des idÃ©es (concepts, techniques, etc.) qui me passionnent mais que j'oublie Ã rÃ©pÃ©tition.

Logiciel dasher

Aujourd'hui, je parlais de dasher Ã un ami. Ce logiciel sert Ã Ã©crire du texte avec un dispositif de pointage ayant uniquement 2 axes (X et Y) tel qu'une souris, une manette de jeu ou les yeux (avec une camÃ©ra). L'animation ci-dessous en prÃ©sente le fonctionnement :

Le point qui m'intriguait Ã©tait de savoir comment dasher dÃ©cide quelles lettres proposer Ã l'utilisateur pendant qu'il Ã©crit son texte. Effectivement, dasher ne propose pas simplement l'alphabet, les chiffres et la ponctuation Ã chaque fois : ce serait trop pÃ©nible.

ChaÃ®nes de Markov

J'ai alors pensÃ© aux chaÃ®nes de Markov : un modÃ¨le qui permet justement de rÃ©pondre Ã ce besoin. Je maÃ®trise mal le sujet et je vais donc expliquer avec mes mots ce que j'en ai compris. Les chaÃ®nes de Markov servent Ã prÃ©dire quelles lettres sont les plus probables selon celles prÃ©cÃ©demment saisies. On utilise pour cela des Â« N-grammes Â» oÃ¹ N est le nombre de lettres, exemple de bigrammes : Â« de Â», Â« la Â», etc. En partant d'un corpus (grosse base de textes), on va construire nos chaÃ®nes de Markov donnant la probabilitÃ© d'apparition des N-grammes dans la langue du corpus. Ã€ partir de ces rÃ©sultats, il y a une autre application rigolote : la gÃ©nÃ©ration de texte alÃ©atoire. On peut effectivement crÃ©e un texte purement artificiel qui a l'air vrai mais est en fait le rÃ©sultat d'un ordinateur ! Articles WikipÃ©dia Ã lire pour en savoir plus : algorithme de Viterbi et modÃ¨le de Markov cachÃ©.

N-grammes de Google

La sociÃ©tÃ© Google a annoncÃ© en aoÃ»t 2006 qu'elle allait distribuer ses N-grammes. Ce qui a Ã©tÃ© fait en septembre 2006 par l'intermÃ©diaire de l'Institut des donnÃ©es linguistiques qui vend ces donnÃ©es sous forme de 6 DVD. L'ensemble est proposÃ© au prix prix de US$150 plus US$50 pour les non-membres, ce qui fait un total de 146 â‚¬. Par contre, interdiction de rediffuser ces donnÃ©es ou de les utiliser Ã des fins commerciales ! Dommage car c'est, apparemment, la plus grosse base de donnÃ©es mondiale de N-grammes : 24 Go compressÃ©s par gzip en UTF-8 comprenant 1.024.908.267.229 lexÃ¨mes et 95.119.665.584 phrases. Il faut savoir que Google a utilisÃ© Internet comme corpus. On peut donc se demander si c'est normal qu'il revende ses rÃ©sultats, car trÃ¨s peu de sites Internet sont libres de droit !

Pangramme

Pour finir, un article qui n'a rien Ã voir mise Ã part la sonoritÃ© avec N-gramme : Pangramme. Cet article a rÃ©solu une Ã©nigme que je me posais depuis de nombreuses annÃ©es : pourquoi Windows affiche Â« Portez ce vieux whisky au juge blond qui fume Â», une phrase qui sonne faux, pour la prÃ©visualisation d'une police de caractÃ¨res ? C'est simple, c'est une des phrases les plus courtes comportant les 26 lettres de l'alphabet franÃ§ais !

lun	mar	mer	jeu	ven	sam	dim
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Blog Haypo

Dasher, ChaÃ®ne de Markov, N-gramme, Google et Pangramme

Logiciel dasher

ChaÃ®nes de Markov

N-grammes de Google

Pangramme

Calendrier

Rechercher

Catégories

Archives

Liens

Syndication