Ein Ausfall bei Heise und Nagios schlägt Alarm?
6. Juli 2009 | Von Thorsten Robers | Kategorie: Monitoring | AvailabilityAm vergangenen Freitag traf es Heise.de hart – ein Stromausfall im Rechenzentrum sorgte für einen kurzzeitigen Totalausfall der Angebote. Betroffen war indes nicht nur Heise.de sondern auch diejenigen, die Heise.de zum Testen ihrer Internetverbindung, ihrer Proxy-Server … verwendeten. In der Konsequenz führte diese zu vielen Nagios-Alarmen, die jedoch nicht zwangsläufig auf ein Problem mit der Netzanbindung zurückzuführen waren.
Damit solche Fehlalarme in Zukunft nicht mehr auftreten empfiehlt sich der Einsatz von check_multi beim Testen von Netzverbindungen, die als Testgrundlage auf andere Netzdienste aufsetzen. Dies will ich im folgenden Kurz mit der entsprechenden Konfiguration aufzeigen.
Zunächst ist check-multi zu installieren. Nach der Installation ist eine entsprechende Konfiguration anzulegen. In meinem Falle ist dies die Prüfung eines Proxy-Servers.
command [heisede] =/usr/local/nagios/libexec/check_squid -u http://www.heise.de -p proxy.intern.os-t.de -l 8080 -e 200 command [googlecom] =/usr/local/nagios/libexec/check_squid -u http://www.google.com -p proxy.intern.os-t.de -l 8080 -e 200 command [debianorg] =/usr/local/nagios/libexec/check_squid -u http://www.debian.org -p proxy.intern.os-t.de -l 8080 -e 200 state [critical]= count(critical) > 2 state [warning]=count(warning) >2 stae [unknown]=count(unknown) >2
Nun muss nur noch die ursprüngliche Command-Definition an den neuen Test anzupassen.
define command { command_name check_squid command_line $USER1$/check_multi -f /usr/local/nagios/etc/conf.d/commands/check_multi }
Ein Neustart von Nagios und der nächste Ausfall von Heise.de sollte keinen Alarm mehr verursachen. Es werden neben Heise nämlich weitere Server getestet und nur wenn alle Tests fehlschlagen, geht Nagios davon aus, dass der Proxy-Server nicht mehr korrekt arbeitet.