Einführung NAGIOS
Einführung in die Grundlagen von NAGIOS
Klaus Coufal
3.9.2021
Betriebsparameter
- Betriebsparameter definieren
- Beispiele für Betriebsparameter
- Wichtige Betriebsparameter erkennen
- Wichtige Betriebsparameter überwachen
- Konsequenzen aus der Überwachung
Betriebsparameter: Definition
- Ein Betriebsparameter ist eine Eigenschaft, die den "Betrieb" charakterisiert
- Oft durch eine Kennzahl oder eine Kenngröße beschrieben
- Abweichungen von den Sollwerten haben i.a. negative Auswirkungen auf den Betrieb
Betriebsparameter: Gliederung
- Hardware
- Dienste
- Betriebssystem
- Applikationen
- Protokolle
- ...
Betriebsparameter: Hardware
- Client-Computer
- Router
- Switch
- Kabel
- Access Point
- Appliance (Firewall, NAS, ...)
- Server
- ...
Betriebsparameter: Dienste
- Webserver
- Mailserver
- VoIP-Server
- Verzeichnisdienst
- Datenbankserver
- Groupwareserver
- ...
Betriebsparameter: OS
- Clientbetriebssysteme
- Serverbetriebssysteme
- Routerbetriebssysteme
- Switchbetriebssysteme
- Appliancebetriebssysteme
- "Telephon"betriebssysteme
- ...
Betriebsparameter: Applikationen
- Büroapplikationen (Text, Tabellenkalkulation, Präsentation, …)
- Datenbankapplikationen (CRM, …)
- Groupware (Kalender, Workflow, …)
- Geschäftsanwendungen
- "Netz"-Anwendungen (Browser, Mail, …)
- Entwicklungsapplikationen (Compiler, …)
- ... (Antimalwareprogramme, …)
Betriebsparameter: Protokolle
- Protokolle der Anwendungsschicht
- Protokolle der Transportschicht
- Protokolle der Netzwerkschicht
- Protokolle der Datenverbindungsschicht
- ...
Betriebsparameter: Beispiele
Betriebsparameter: Auswahl
- Kriterien erstellen, nach denen aus der Unzahl von Parametern, die ausgewählt werden, die wichtig (=notwendig für den Betrieb der Firma (Institution, …)) sind
- Meßbarkeit dieser Parameter sicherstellen
- Definition von Grenzwerten
Betriebsparameter: Überwachung
- Festlegung, wie diese Parameter überwacht und protokolliert werden
- Automatisch und/oder Manuell
- Laufend ("Trap"gesteuert) / Zyklisch / Bei Bedarf
- Zentral oder Dezentral
- Verantwortung für Überwachung
Betriebsparameter: Konsequenzen
- Passiv: Logfiles bzw. Datenbank
- Aktiv: Meldung bzw. Alarmierung
- Meldung: Popup, Mail, SMS, …
- Einstufung der "Dringlichkeit"
- Reaktion?
- Wer, Wie, Wann
- Protokollierung der Reaktion
Betriebsparameter: Überwachungsframeworks - NonOSS
- HP OpenView → HP Business Technology Optimization bzw. HP Service Activator
- IBM Tivoli
- (CA NSM → CA Netmaster, CA wurde zu CA Technologies als Teil von Broadcom)
- Microsoft Operation Manager (MOM) → Microsoft System Center Operations Manager (MS-SCOM)
Betriebsparameter: Überwachungsframeworks - OSS
NAGIOS
- Was ist das
- Geschichte
- Features
- Versionen
- Umsetzung
NAGIOS
- Nagios
- Ain´t
- Gonna
- Insist
- On
- Sainthood
NAGIOS: Fakten
- OSS (Open Source Software)
- Autor: Ethan Galstad (et al.)
- NAGIOS ist ein Monitoring System zur Überwachung der IT-Infrastruktur
- Schwierigkeiten sollen erkannt werden, bevor sie "kritisch" werden (d.h. den Betrieb stören)
NAGIOS: Geschichte
- 1996
- MS-DOS Applikation, um die Funktion von Netwareservern zu überwachen
- 1998
- 1999
- Open Source Projekt "NetSaint"
- PlugIns
- 2002
- Aus markenschutzrechtlichen Gründen Umbenennung in NAGIOS
- 2007
- Gründung der Nagios Enterprises, LLC zur Vermarktung der Dienstleistung und der Entwicklung
NAGIOS: Features 1
- Umfangreiche Überwachung
- Überwachung von Applikationen, Diensten, Betriebssystemen, Netzwerkprotokollen, Infrastrukturkomponenten
- Script APIs erlauben die Überwachung von Nichtstandardkomponenten (z.B.: eigener Software)
- Aufbereitete Darstellung
- Zentrale Sicht auf die gesamte IT-Infrastruktur
- Detaillierte Statusinformationen im Webinterface
- Wahrnehmung
- Rasches Erkennen von Ausfällen einer Infrastrukturkomponente
- Alarme an die zuständigen Personen mittels eMail oder SMS
- Eskalationsmöglichkeiten sichern die Zustellung eines Alarms an die richtigen Personen
NAGIOS: Features 2
- Problembeseitigung
- Alarmbestätigungen erleichtern die Kommunikation und die Problembearbeitung
- Ereignissteuerungen (Event handler) erlauben den automatischen Neustart von Anwendungen oder Diensten
- "Proaktive" Planung
- Erweiterungen zur Beobachtung von Trends und zur Planung der Kapazität bewahren vor Engpässen
- Geplante Ausfälle erlauben die Verhinderung von Alarmen während des Ausbaus der Infrastruktur
- Auswertung und Berichte
- Verfügbarkeitsberichte sichern die Einhaltung von SLAs
- Historische Berichte bieten die Aufzeichnung von Alarmen, deren Bestätigung und Beantwortung
- "Addons" erweitern die Berichtsmöglichkeiten
NAGIOS: Features 3
- Mandantenfähigkeit
- Der mehrbenutzerfähige Zugriff erlaubt allen Berechtigten die jeweilige Sicht auf ihre Infrastruktur
- Benutzerspezifische Darstellungen sichern die jeweils notwendige Detailtiefe
- Erweiterbare Architektur
- Einfache Integration in Anwendungen von Drittanbietern mit Hilfe mehrerer APIs
- Erweiterung der Basisfunktionalität durch zahlreiche AddOns (nicht alle OSS)
- Bewährte und stabile Plattform
- Mehr als 20 Jahre in Entwicklung/am Markt
- Skalierbar auch für viele zu überwachende Knoten (mehrere 1000)
- Redundanz zur Ausfallssicherung garantiert die unterbrechungsfreie Überwachung kritischer IT-Infrastruktur
NAGIOS: Features 4
- Dynamische "Community"
- Mehr als eine Million Benutzer
- Kostenloser Support über Mailinglisten
- Viele Addons
- Anpassbarer Programmcode
- OSS (Open Source Software)
- GPL (General Public License)
- Damit Zugriff auf den gesamten Quellcode
NAGIOS: Installation
- Die Installation erfolgt abhängig vom eingesetzten Betriebssystem am Überwachungsserver
- Schnellstartanleitungen für verbreitete Betriebssysteme (z.B.: OpenSuSE, Ubuntu, …) finden sich unter:
NAGIOS Quickstart
NAGIOS: Überwachung Windows
- Agent (NSClient++, NC_Net, …) am Zielsystem Windows
Quelle: http://nagios.sourceforge.net/docs/nagioscore-3-en.pdf
NAGIOS: Überwachung Linux
- Agent am Zielsystem Linux
Quelle: http://nagios.sourceforge.net/docs/nagioscore-3-en.pdf
NAGIOS: Überwachung Drucker
- Agent am Zielsystem Netzwerkdrucker
Quelle: http://nagios.sourceforge.net/docs/nagioscore-3-en.pdf
NAGIOS: Überwachung Router/Switch
- Agent am Zielsystem Router/Switch
Quelle: http://nagios.sourceforge.net/docs/nagioscore-3-en.pdf
NAGIOS: Konfiguration Überwachung
- Konfiguration am NAGIOS-Server
- ev. Installieren bzw. Aktivieren eines PlugIns (z.B.: check_nt;)
- Definition des neuen Hosts (unter Verwendung von Templates)
- ev. Definition neuer Dienste
- Neustart des NAGIOS-Dämons
NAGIOS: Konfiguration - Beispiel Windows 1
- Host Definition (/usr/local/nagios/etc/objects/windows.cfg)
- define host{
- use windows-server ; (Template)
- host_name spgsrv
- alias Server_Spengergasse1
- address 192.168.1.2
- }
NAGIOS: Konfiguration - Beispiel Windows 2
- Überwachung der Agentversion
- define service{
- use generic-service; (Template)
- host_name spgsrv
- service_description NSClient++ Version
- check_command check_nt!CLIENTVERSION
- }
NAGIOS: Konfiguration - Beispiel Windows 3
- Überwachung der Laufzeit
- define service{
- use generic-service; (Template)
- host_name spgsrv
- service_description Uptime
- check_command check_nt!UPTIME
- }
NAGIOS: Konfiguration - Beispiel Windows 4
- Überwachung der CPU-Auslastung
- define service{
- use generic-service; (Template)
- host_name spgsrv
- service_description CPU Load
- check_command check_nt!CPULOAD!-l 5,80,90
- }
- Anmerkung: 5=5Minuten, 80%=Warnung, 90%=Critical
NAGIOS: Konfiguration - Beispiel Drucker 1
- Host Definition (/usr/local/nagios/etc/objects/printer.cfg)
- define host{
- use generic-printer ; (Template)
- host_name hplaserjetnet
- alias HP LaserJet 4000 dn
- address 192.168.1.30
- hostgroups allhosts
- }
NAGIOS: Konfiguration - Beispiel Drucker 2
- Überwachung des Druckers
- define service{
- use generic-service; (Template)
- host_name hplaserjetnet
- service_description Printer Status
- check_command check_hpjd!-C public
- normal_check_interval 10
- retry_check_interval 1
- }
NAGIOS: Konfiguration - Beispiel Switch 1
- Host Definition (/usr/local/nagios/etc/objects/switch.cfg)
- define host{
- use generic-switch ; (Template)
- host_name cisco-2960-253
- alias Cisco 2960 Switch Etage1
- address 192.168.1.253
- hostgroups allhosts,switches
- }
NAGIOS: Konfiguration - Beispiel Switch 2
- Überwachung des Pingverhaltens
- define service{
- use generic-service; (Template)
- host_name cisco-2960-253
- service_description PING
- check_command check_ping!200.0,20%!600.0,60%
- normal_check_interval 5
- retry_check_interval 1
- }
- Anmerkung1: WARNING: RTA von 200ms oder Packetloss von 20%
- Anmerkung2: CRITICAL: RTA von 600ms oder Packetloss von 60%
NAGIOS: Konfiguration - Beispiel Webserver 1
- Host Definition (/usr/local/nagios/etc/objects/hosts.cfg)
- define host{
- use host ; (Template)
- host_name webserver
- alias External Web Server
- address 192.189.51.132
- hostgroups allhosts
- }
NAGIOS: Konfiguration - Beispiel Webserver 2
- Überwachung des Webservers
- define service{
- use generic-service; (Template)
- host_name webserver
- service_description HTTP
- check_command check_http
- }
Quellen
Fragen
?
Danke für Ihre Aufmerksamkeit