Gestion de la mÃ©moire

Comme je commenÃ§ais Ã accumuler pas mal de liens intÃ©ressants sur la gestion de la mÃ©moire, je me suis dÃ©cidÃ© Ã Ã©crire un article. J'espÃ¨re qu'il vous sera utile, au moins pour la culture gÃ©nÃ©rale.

Multithreading et malloc()

L'implÃ©mentation actuelle du cÃ©lÃ¨bre allocateur de mÃ©moire malloc() de la GNU libc est peu performante pour un programme multi-threadÃ©. En particulier, la mÃ©moire se fragmente facilement et l'allocation de mÃ©moire est donc de plus en plus lente. Google a dÃ©veloppÃ© sa propre version de malloc() : tcmalloc. Elle est disponible dans la suite google-perftools sous la nouvelle licence BSD. CÃ´tÃ© points noirs, tcmalloc utilise directement 6 Mo au dÃ©marrage pour son usage interne, et elle ne rend jamais la mÃ©moire au systÃ¨me !

La prochaine version de FreeBSD (7.0) aura aussi un nouvel allocateur de mÃ©moire : jemalloc, Ã©crit par Jason Evans. L'implÃ©mentation actuelle de de FreeBSD est celle de Poul-Henning Kamp : phkmalloc. Vous trouverez une prÃ©sentation de jemalloc dans l'article What's cooking for FreeBSD 7? Lisez Ã©galement le papier Ã©crit par Jason en avril 2006 : A Scalable Concurrent malloc Implementation for FreeBSD.

Selon un benchmark Â« NetBSD versus FreeBSD Â», les performances restent stables au delÃ de 4 threads (sur une machine ayant 4 processeurs) pour le nouvel allocateur de FreeBSD, alors que pour NetBSD et Linux les performances s'Ã©croulent. En utilisant tcmalloc, les performances de Linux sont similaires Ã celle de FreeBSD.

La version actuelle de la GNU libc utilise ptmalloc2, implÃ©mentation inspirÃ© de celle de Doug Lea (dlmalloc) version 2.7. La nouvelle glibc (version 2.6) utilise ptmalloc3 : 3e version de ptmalloc, basÃ©e sur dlmalloc 2.8.3 (date de 2005).

Mesure de la mÃ©moire des processus

En avril 2007, Matt Mackall prÃ©sentait son travail sur la quantification de la mÃ©moire utilisÃ©e par un processus au Embedded Linux Conference. Il part du constat que les valeurs donnÃ©es par le noyau Linux n'ont que pas/peu de sens.

Il propose un patch pour le noyau qui permet de compter le nombre de processus partageant une page mÃ©moire. La quantitÃ© de mÃ©moire utilisÃ©e par un processus est alors le nombre de pages mÃ©moire non partagÃ©es plus le nombre de pages partagÃ©es divisÃ© par le nombre d'utilisations. Exemple : si 20 programmes utilisent une bibliothÃ¨que KDE de 30 Mo, la bibliothÃ¨que pÃ¨sera 30/20 = 1,5 Mo pour chaque processus et non plus 30 Mo comme c'est le cas actuellement ! Ceci permettra d'avoir une meilleure idÃ©e de la rÃ©partition de la mÃ©moire. LWN.net propose un article dÃ©taillant la prÃ©sentation de Matt.

Aux derniÃ¨res nouvelles (voir les prÃ©visions mÃ©tÃ©o de Linux), le patch devrait Ãªtre intÃ©grÃ© dans Linux 2.6.25. La derniÃ¨re version stable de Linux est la 2.6.23 et la 2.6.24 est en cours de dÃ©veloppement. Il faudra Ãªtre donc Ãªtre encore un peu patient (ou alors recompiler son noyau Ã la main ;-)).

Astuce : Pour mesurer l'utilisation de la mÃ©moire vidÃ©o par les applications graphiques, utilisez le programme xrestop plutÃ´t que top ;-)

Ce que tous les programmeurs doivent savoir au sujet de la mÃ©moire

Ulrich Drepper, actuel mainteneur de la GNU libc travaillant pour RedHat, a Ã©crit un article dÃ©taillant sur 100 pages la mÃ©moire de nos jours (2007) : What every programmer should know about memory. Il a contactÃ© le site Internet LWN.net pour publier son article. Pour une lecture plus confortable, l'article est dÃ©coupÃ© en 6 parties :

J'ai commencÃ© Ã lire la 1Ã¨re partie qui est d'une excellente qualitÃ©. Par contre, c'est extrÃªmement technique et trÃ¨s dÃ©taillÃ©. La premiÃ¨re partie prÃ©sente l'organisation logique d'un ordinateur en se concentrant sur le/les processeurs, la mÃ©moire, le northbridge et le southbridge. Merci Ã toady de m'avoir indiquÃ© ce lien ;-)

Noyau Linux

Le site linux-mm.org (Linux Memory Management) centralise les informations sur la gestion de mÃ©moire par le noyau Linux. On y trouve les projets en cours de dÃ©veloppement comme advanced page replacement. On y trouve aussi de trÃ¨s bonnes informations sur le gestionnaire de mÃ©moire Linux, comme par exemple les articles OOM Killer (mÃ©canisme qui dÃ©signe quel processus tuer quand la machine n'a vraiment plus de mÃ©moire) et page fault handling. Rik van Riel a d'ailleurs publiÃ© une lettre ouverte invitant les universitÃ©s Ã faire de la recherche fondamentale sur la gestion de la mÃ©moire. Les algorithmes utilisÃ©s ne sont plus adaptÃ©s aux machines actuelles !

Et Python ?

Le gestionnaire de mÃ©moire interne de Python 2.3 et 2.4, pymalloc, est boguÃ©. Il ne rend jamais la mÃ©moire au systÃ¨me ! Lisez le billet d'Evan Jones pour en savoir plus. Evan Jones a justement corrigÃ© ce bug et son travail a Ã©tÃ© intÃ©grÃ© dans Python 2.5. Lisez l'annonce d'Evan Jones et l'annonce de Tim Peters sur la liste de diffusion python-dev. Tim Peters a repris le travail d'Evan Jones, l'a corrigÃ© et l'a intÃ©grÃ© Ã Python.

Pour finir, voici deux outils permettant de tracer l'utilisation de la mÃ©moire : PySizer et Heapy. Je ne les ai pas encore testÃ©, mais ils sont certainement trÃ¨s instructifs. Lisez Ã©galement le papier Heapy: A Memory Profiler and Debugger for Python.

N'oubliez pas d'utiliser rÃ©guliÃ¨rement Valgrind sur vos programmes pour traquer les fuites de mÃ©moire !

Commentaires

1. Le jeudi 8 novembre 2007 à 23:29, par Nicolas

Bonjour,

TrÃ¨s impressionnante votre calculatrice formelle ! J'aimerais bien rÃ©aliser quelque chose de semblable en java (je ne connais pas encore ce langage ni le C++). Mais avant de me lancer dans un tel projet, j'aimerais bien comprendre un peu comment vous vous Ãªtes pris pour rÃ©aliser votre calculatrice formelle. Avez-vous des rÃ©fÃ©rences de livres Ã conseiller ? Comment Ã§a marche ? Par oÃ¹ commencer ?

DÃ©solÃ© pour toutes ces questions qui vous semblent peut-Ãªtre bÃªtes.

Merci

2. Le vendredi 9 novembre 2007 à 01:36, par haypo

Tiens, autre lien que j'avais oubliÃ© de noter :
www.berthels.co.uk/exmap/

Il sert Ã mesurer prÃ©cisÃ©ment la mÃ©moire utilisÃ©e par un programme.

3. Le samedi 10 novembre 2007 à 20:36, par sbz

super article haypo :)

4. Le mardi 13 novembre 2007 à 23:31, par Bruno Michel

Merci pour cet article trÃ¨s intÃ©ressant. J'irais bien lire "What every programmer should know about memory", mais rien que de savoir qu'il est aussi long, j'en ai perdu le courage.

5. Le mercredi 14 novembre 2007 à 10:52, par haypo

@Bruno : Ã©tant donnÃ© que l'article a Ã©tÃ© redÃ©coupÃ©, on peut lire une partie chaque jour par exemple ;-) Et bien sÃ»r, commencer par une partie autre que la premiÃ¨re qui est plutÃ´t introductive.

6. Le jeudi 15 novembre 2007 à 14:52, par sbz

A noter qu'il y a le super bouquin de Mel Gorman sur la gestion de la mÃ©moire du noyaux linux et bien sÃ»r, il est disponible online : www.informit.com/content/images/0131453483/downloads/gorman_book.pdf, un must pour explorer le modÃ¨le mÃ©moire de Linux.

7. Le vendredi 16 novembre 2007 à 16:46, par ontologiae

Pourquoi ne pas poster cet article sur linuxfr dans un journal privÃ©, ce serait intÃ©ressant, non ?

8. Le mardi 20 novembre 2007 à 01:50, par haypo

@ontologiae: Je ne pense pas que linuxfr se prÃªte aux Â« articles Â», je prÃ©fÃ¨re linuxfr comme mÃ©dia de diffusion des activalitÃ©s. LÃ c'est plus une rÃ©flexion sur les dÃ©veloppements en cours. Je vais peut-Ãªtre republier cet article (adaptÃ©) dans Linux Magazine.

9. Le mardi 20 novembre 2007 à 01:51, par haypo

@sbz: C'est un pavÃ© de 700 pages ! Je n'aurai jamais la patience de lire un tel volume, je ne m'y intÃ©resse pas Ã ce point. Mais merci pour l'info, un aussi gros livre distribuÃ© librement c'est trÃ¨s chouette ;-)

10. Le lundi 11 août 2008 à 12:03, par haypo

Â« talloc is a hierarchical pool based memory allocator with destructors. It is the core memory allocator used in Samba4, and has made a huge difference in many aspects of Samba4 development. Â» -- talloc.samba.org/

Ajouter un commentaire

Les commentaires pour ce billet sont fermés.

Blog Haypo