Empfehlungen für den Admin
Das EDAC-Modul hinterlegt im Sys-Filesystem eine große Menge an Daten über Speicherfehler. Auch wenn man erwartet, dass sich solche Fehler nicht oft ereignen, sollte man seine Rechner regelmäßig darauf überprüfen. Schon mit einem einfachen Skript (
Listing 6
) lassen sich die entsprechenden Files leicht auslesen. Es gibt auch bereits ein Nagios-Plugin
[8]
für diesen Zweck. Im High-Performance-Computing-Umfeld könnte man das Skript etwa in Ganglia integrieren
[9]
.
Angepasstes Nagios-Plugin
Findet man auf diese Weise korrigierbare Fehler, heißt das nicht, dass der DIMM schlecht ist. Allerdings sollte man ihn im Auge behalten, um reagieren zu können, wenn die Fehlerrate ansteigen sollte.
- ECC Memory:
http://en.wikipedia.org/wiki/ECC_memory
- Normand, E. Single event upset at ground level
IEEE Transctions on Nuclear Science
, 1996; 43(6):2742-2750:
http://pdf.yuri.se/files/art/2.pdf
- Schroeder, B., E. Pinheiro, and Weber, W.-D. DRAM errors in the wild: A large-scale field study.
In:
Douceur, J.R., Greenberg, A.G., Bonald, T., and Nieh, J. (eds.),
Proceedings of the 11th International Joint Conference on Modeling of Computer Systems, SIGMETRICS/Performance 2009
(Seattle, Washington, ACM, 2009), pp. 193-204:
http://www.cs.toronto.edu/~bianca/papers/sigmetrics09.pdf
- bluesmoke:
http://bluesmoke.sourceforge.net/
- EDAC:
http://en.wikipedia.org/wiki/Error_detection_and_correction
- EDAC wiki:
http://buttersideup.com/edacwiki/Main_Page
- EDAC documentation:
https://www.kernel.org/doc/Documentation/edac.txt
- EDAC Nagios plugin:
https://bitbucket.org/darkfader/nagios/src/c9dbc15609d0/check_mk/edac/plugins/edac?at=default
- Ganglia:
http://ganglia.sourceforge.net/