Blog Haypo

Par haypo, mercredi 4 avril 2007 à 01:08 :: Python

hachoir-metadata est un programme permettant de lire les mÃ©tadonnÃ©es d'un fichier : taille d'une image, auteur d'une vidÃ©o, durÃ©e d'un son, etc. Il repose sur hachoir-parser pour lire les informations d'un fichier.

Traitements automatiques

hachoir-metadata rÃ©alise de plus en plus de traitements automatiques haut niveaux tels que :

supprimer les espaces inutiles
ignorer les chaÃ®nes de caractÃ¨re vides
filtrer les valeurs : ignore les valeurs abbÃ©rantes (ex: image ayant une largeur nulle)
supprimer les doublons

La suppression des doublons ne concerne pas simplement les valeurs identiques. Pour les chaÃ®nes de caractÃ¨re, hachoir-metadata est capable de reconnaÃ®tre qu'une chaÃ®ne est le dÃ©but d'une autre. Exemple : si on trouve les deux auteurs "James Brown" et "James Br" pour une chanson, seule la chaÃ®ne la plus longue est conservÃ©e (James Brown !).

RÃ©utilisation des valeurs

L'extracteur de mÃ©tadonnÃ©e est de plus en plus rigoureux : les valeurs doivent Ãªtre d'un type prÃ©cis. Par exemple, la durÃ©e d'une chanson est maintenant du type Python Â« timedelta Â». Avant les dates, durÃ©es, dÃ©bit en bit/sec, nombre de canaux audios Ã©taient tantÃ´t une chaÃ®ne de caractÃ¨re, tantÃ´t un entier, tantÃ´t une date, ...

Le fait que le type des donnÃ©es soit strict a permis de faire des calculs sur les documents multimÃ©dias. On peut maintenant obtenir le dÃ©bit en bits par seconde pour du son et de la vidÃ©o, et le taux de compression pour une image et du son. Ceci permet de comparer la qualitÃ© d'un codec.

Option --quality

J'ai Ã©galement ajoutÃ© l'option --quality permettant de choisir la Â« qualitÃ© Â» des mÃ©tadonnÃ©es extraites. En fait, cette option dÃ©termine la vitesse d'extraction : les opÃ©rations lourdes ne seront faites que pour quality=1.0, alors que pour quality=0.0 toutes les opÃ©rations lentes sont ignorÃ©es. Cette option influe par exemple sur le calcul de la durÃ©e d'un MP3 Ã dÃ©bit variable : pour un calcul exact, il faut lire le fichier en entier mais ceci est trÃ¨s long. L'option quality va donc faire varier le nombre de champs traitÃ©s.

Nouvelles d'Hachoir (core et parser)

Par haypo, mercredi 4 avril 2007 à 01:04 :: Python

Je viens de me rendre compte que Ã§a fait pas mal de temps que je code sans Ã©crire de journal sur les derniers dÃ©veloppement de mon projet Hachoir. Voici donc un premier billet donnant des nouvelles du front.

hachoir-core

hachoir-core est le cÅ“ur d'Hachoir : la partie bas niveau qui va dÃ©couper un fichier en une multitudes de champs. Mais ce composant contient Ã©galement Ã©normÃ©ment d'outils divers comme une humanDuration() qui va convertir une durÃ©e en une reprÃ©sentation Â« humaine Â» (ex: "22 sec 320 ms"). Aujourd'hui, hachoir-core Ã©volue peu car il commence Ã couvrir l'ensemble des besoins d'un parseur.

Le plus gros changement rÃ©cent est la tolÃ©rance aux erreurs. En fait, l'erreur n'est pas corrigÃ©e mais rattrapÃ©e. Par exemple, si une erreur est dÃ©tectÃ©e durant la gÃ©nÃ©ration de la description d'un champ : l'erreur est affichÃ©e et la description devient une chaÃ®ne vide. Ceci peut sembler naturel, mais ce n'Ã©tait pas le cas avant. PrÃ©cÃ©demment, si la gÃ©nÃ©ration d'une description Ã©chouait, on perdait beaucoup d'informations car l'erreur dÃ©clanchait une cascade d'autres erreurs et finalement plusieurs champs Ã©taient dÃ©truits. Ce principe de rattrapage d'erreurs est utilisÃ© dans un maximum de code. Il reste peu de fonctions qui ne sont pas Â« protÃ©gÃ©es Â» ce qui rend le code toujours plus robustes.

hachoir-parser

hachoir-parser est un ensemble de parseurs de fichiers (images, vidÃ©os, archives, programmes, ...). Ce composant est celui auquel contribue le plus de monde car il est simple de le modifier (corriger) ou d'ajouter son propre parseur. J'ai notamment reÃ§u un gros coup de main de Christophe GISQUET qui a Ã©crit les parseurs ACE, RAR, Torrent et d'autres. Mike Melanson, le chef de projet du greffon Flash pour Linux, a Ã©galement Ã©crit des parseurs pour les formats Real Audio et Real Media. Enfin, Olivier SCHWAB a Ã©crit un parseur 7-zip.

Archive : archive ACE, Microsoft cabinet (CAB), Roshal archive (RAR), archive Microsoft (MAR)
Audio : Uncompressed amiga module (MOD), ScreamTracker3 module (S3M), FastTracker II Extended Module (XM), Audio Interchange File Format (AIFF et AIFC), Real audio (RA), image Targa (TGA)
Image : Photoshop (PSD), icone animÃ© Windows (ANI), Aldus Placeable Metafile (APM), Microsoft Enhanced Metafile (EMF) et Microsoft Windows Metafile (WMF)
Divers : BitTorrent (.torrent), police de caractÃ¨re TrueType (TTF), document PDF, exÃ©cutable Windows 16-bit (NE), vidÃ©o MPEG-2 Transport Stream (MPEG TS), raccourci Windows (LNK), X11 Portable Compiled Font (PCF), aide Windows HTML (CHM), ...

Ã€ l'heure actuelle il y a 70 parseurs dans la version de dÃ©veloppement d'Hachoir. J'ai du mal Ã savoir si c'est beaucoup ou peu. En consultant la liste complÃ¨te des parseurs, je pense tout de mÃªme que c'est assez consÃ©quent pour ne pas dire Ã©norme. Il faut d'ailleurs savoir que certains parseurs gÃ¨rent plusieurs formats. Exemples : RIFF parse les formats AVI, WAV, ANI et CDA; WMF parse les formats AMF, EMF et WMF; etc.

lun	mar	mer	jeu	ven	sam	dim
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Blog Haypo

Nouvelles d'hachoir-metadata

Traitements automatiques

RÃ©utilisation des valeurs

Option --quality

Nouvelles d'Hachoir (core et parser)

hachoir-core

hachoir-parser

Calendrier

Rechercher

Catégories

Archives

Liens

Syndication