Failover Cluster


werden alle Konfigurationen und Daten zwischen den beiden Geräten abgeglichen. Die Geräte, die als Cluster verbunden sind, nennt man auch Knoten. Einer der Knoten im Cluster übernimmt die aktive Rolle, führt also die Aufgaben des Clusters aus. Beide Knoten tauschen sich dauerhaft über ihren Zustand aus. Sobald der inaktive Knoten erkennt, dass der aktive Knoten seine Aufgaben nicht mehr erfüllen kann, z. B. aufgrund eines Ausfalls, übernimmt der inaktive Knoten die Aufgaben und wird zum aktiven Knoten.

Der Failover-Cluster ist dazu da die Verfügbarkeit Ihrer Monitoring-Installation zu erhöhen, indem diese gegen Hardwareausfälle eines Geräts oder einzelner Komponenten abgesichert wird. Die Clusterung ersetzt keine Datensicherung.

In den folgenden Situationen sorgt der Cluster für eine geringere Ausfallzeit:

  • Wenn das RAID in einer Check_MK rack1 oder die SD-Karte in einer Check_MK rail2 nicht mehr zugreifbar sind, übernimmt der inaktive Knoten die Ressourcen.
  • Wenn das bisher aktive Gerät nicht mehr erreichbar (ausgefallen) ist, übernimmt der inaktive Knoten die Ressourcen.
  • Wenn das bisher aktive Gerät das "externe" Netzwerk nicht mehr erreichen kann und im Gegensatz dazu der inaktive Knoten eine Verbindung zu diesem Netzwerk hat, übernimmt der inaktive Knoten die Ressourcen.
  • Wenn Sie ein Firmware-Update durchführen, können Sie die Knoten einzeln aktualisieren. Während der Aktualisierung des einen Knotens führt der andere Knoten das Monitoring weiter durch.

1. Voraussetzungen

Damit Sie einen Cluster aufbauen können, brauchen Sie zunächst zwei kompatible Check_MK-Appliances. Folgende Modelle können miteinander geclustert werden:

  • 2x Check_MK rack1
  • 2x Check_MK rail2
  • 2x Check_MK virt1
  • 1x Check_MK rack1 und 1x Check_MK virt1

Weiterhin müssen die beiden Geräte eine kompatible Firmware nutzen, mindestens aber die Version 1.1.0.

Die Geräte müssen mit mindestens zwei voneinander unabhängigen Netzwerkverbindungen verkabelt sein. Es wird empfohlen eine möglichst direkte Verbindung zwischen den Geräten zu verwenden und eine weitere Verbindung über Ihr LAN herzustellen.

Um die Verfügbarkeit der Netzwerkverbindungen zu erhöhen, sollten Sie statt zwei Verbindungen über einzelne Netzwerkanschlüsse eine Bonding-Konfiguration erstellen, die alle vier Netzwerkanschlüsse der Check_MK rack1 nutzt. Dabei verwenden Sie die Schnittstellen LAN1 und LAN2 für den Anschluss an Ihr Netzwerk und die Schnittstellen LAN3 und LAN4 für die direkte Verbindung zwischen der Geräten.

2. Migration bestehender Installationen

Geräte, die mit der Firmware-Version 1.1.0 oder neuer ausgeliefert und initialisiert wurden, können ohne Migration geclustert werden.

Geräte, die mit einer älteren Firmware initialisiert wurden, müssen zunächst auf die Version 1.1.0 oder neuer aktualisiert werden. Anschließend müssen die Werkseinstellungen des Geräts wiederhergestellt werden, dadurch wird das Gerät für die Clusterung vorbereitet. Bitte beachten Sie, dass Sie, um Datenverlust zu vermeiden, vorher Ihre Daten von dem Gerät sichern und anschließend wieder herstellen müssen.

3. Konfiguration des Clusters

Diese Anleitung geht davon aus, dass Sie beide Geräte bereits so weit vorkonfiguriert haben, dass Sie die Weboberfläche mit einem Webbrowser öffnen können.

Vor der eigentlichen Einrichtung des Clusters müssen Sie zunächst beide Geräte vorbereiten. Dabei müssen Sie hauptsächlich die Netzwerkkonfiguration so anpassen, dass die Anforderungen der Clusterung erfüllt werden (siehe unter Voraussetzungen).

Im Folgenden wird die Konfiguration eines Clusters mit zwei Check_MK rack1 gezeigt. Dabei wird ein Cluster aufgebaut, der folgendem Schaubild entspricht.

Die im Schaubild verwendeten Schnittstellenbezeichnungen LAN1, LAN2 usw. entsprechen den Bezeichnungen der physikalischen Schnittstellen am Gerät. Im Betriebssystem entspricht LAN1 dem Gerät eth0, LAN2 dem Gerät eth1 usw.

Diese Konfiguration entspricht den Empfehlungen für die Clusterung von zwei Check_MK rack1. Sie können in Ihrer Umgebung selbstverständlich IP-Adressen verwenden, die in Ihre Umgebung passen. Achten Sie jedoch darauf, dass das interne Cluster-Netz (bond1 im Schaubild) ein anderes IP-Netz verwendet, als das "externe" Netz (bond0 im Schaubild).

3.1. Netzwerkkonfiguration

Öffnen Sie die Weboberfläche des ersten Knotens, wählen Sie die Geräteeinstellungen und oben Netzwerkeinstellungen. Sie befinden Sich jetzt auf der Seite zur Konfiguration der Netzwerkeinstellungen. Hier stehen Ihnen zwei Modi zur Verfügung. Der einfache Modus, mit dem Sie nur LAN1 Ihres Geräts konfigurieren können, ist standardmäßig aktiviert.

Für die Clusterung wird der erweiterte Modus benötigt. Um diesen Modus zu aktivieren, klicken Sie oben auf die Schaltfläche Erweiterter Modus und bestätigen Sie die Sicherheitsabfrage.

Auf der folgenden Seite werden Ihnen alle im Gerät verfügbaren Netzwerkschnittstellen angezeigt. Nur die Schnittstelle eth0 (entspricht LAN1) hat aktuell eine Konfiguration. Diese wurde vom einfachen Modus übernommen.

Erstellen Sie nun durch Klick auf Bonding erstellen die erste Bonding-Schnittstelle bond0. Tragen Sie dazu im darauf folgenden Dialog alle Daten entsprechend des Schaubilds wie folgt ein und bestätigen Sie den Dialog mit Speichern.

Erstellen Sie nun die zweite Bonding-Schnittstelle bond1 mit der passenden Konfiguration.

Nachdem Sie die beiden Bonding-Schnittstellen erstellt haben, sehen Sie im Dialog zur Netzwerkkonfiguration noch einmal alle getätigten Einstellungen.

Wenn Sie alle Schritte zur Konfiguration erfolgreich abgeschlossen haben, machen Sie die Einstellungen mit einem Klick auf Änderungen akt. wirksam. Daraufhin werden die neuen Netzwerkeinstellungen geladen. Nach wenigen Sekunden sieht die Netzwerkkonfiguration so aus:

Wiederholen Sie die Konfiguration der Netzwerkeinstellungen mit den passenden Einstellungen nun auch auf Ihrem zweiten Gerät.

3.2. Hostnamen

Geräte, die in einem Cluster verbunden werden sollen, müssen unterschiedliche Hostnamen haben. Diese können Sie jetzt in den Geräteeinstellungen festlegen. In unserem Beispiel konfigurieren wir auf dem ersten Gerät node1 und auf dem zweiten Gerät node2 als Hostnamen.

3.3. Verbinden des Clusters

Nachdem Sie nun die Vorbereitungen abgeschlossen haben, können Sie jetzt mit dem Einrichten des Clusters fortfahren. Öffnen Sie dazu in der Weboberfläche im Hauptmenü des ersten Geräts (hier node1) das Modul Clusterung und klicken Sie dort auf Cluster manuell einrichten.

Tragen Sie im Dialog zum Erstellen des Clusters nun die entsprechende Konfiguration ein und bestätigen Sie den Dialog mit Speichern. Wenn Sie zu diesem Dialog weiterführende Informationen benötigen, klicken Sie oben rechts auf das Icon neben dem MK-Logo. Daraufhin erscheint im Dialog eine Kontexthilfe, die die einzelnen Optionen erläutert.

Auf der folgenden Seite können Sie die beiden Geräte zu einem Cluster verbinden. Hierzu müssen Sie das Passwort der Weboberfläche des zweiten Geräts eingeben. Dieses wird einmalig dazu genutzt die Verbindung zwischen den beiden Geräten herzustellen. Bestätigen Sie anschließend die Sicherheitsabfrage, wenn Sie sich sicher sind, dass Sie die Daten des Zielgeräts mit der angezeigten IP-Adresse überschreiben wollen.

Nachdem dieser Verbindungsaufbau erfolgreich war, wird mit der Einrichtung des Clusters begonnen. Den aktuellen Status können Sie sich auf der Cluster-Seite anzeigen lassen.

Sobald der Cluster erfolgreich aufgebaut wurde, startet die Synchronisation der Monitoring-Daten vom ersten zum zweiten Knoten. Noch während dieser Synchronisation werden alle Ressourcen, u.a. auch Ihre möglicherweise bestehenden Monitoring-Instanzen, auf dem ersten Knoten gestartet.

Ab Sofort können mit Hilfe der Cluster-IP-Adresse (hier 10.3.3.30) auf die Ressourcen des Clusters, z. B. Ihre Monitoring-Instanzen, zugreifen - egal von welchem Knoten die Ressourcen gerade gehalten werden.

4. Der Status des Clusters

Nach Abschluss der ersten Synchronisation ist Ihr Cluster voll einsatzbereit. Auf der Cluster-Seite können Sie den Zustand jederzeit einsehen.

Auch mit Hilfe des Statusbildschirms auf der Konsole können Sie den aktuellen Zustand des Clusters im Kasten Cluster in zusammengefasster Form einsehen. Die Rolle des jeweiligen Knotens wird hinter dem aktuellen Status mit (M) für den Master-Host und (S) für den Slave-Host dargestellt.

5. Besonderheiten im Cluster

5.1. Zugriff auf Ressourcen

Alle Anfragen an die Monitoring-Instanzen, wie z. B. Zugriffe auf die Weboberfläche, aber auch eingehende Meldungen, wie z. B. SNMP-Traps oder Syslog-Meldungen an die Event-Console oder Anfragen an Livestatus sollten im Normalfall immer über die Cluster-IP-Adresse gehen.

Nur im Ausnahmefall, wie z. B. Fehlerdiagnosen oder Updates eines bestimmen Knoten, sollten Sie direkt auf die einzelnen Knoten zugreifen müssen.

5.2. Geräteeinstellungen

Die Einstellungen, wie z. B. Zeitsynchronisation oder Einstellungen zur Namensauflösung, die bisher auf den einzelnen Geräten unabhängig voneinander gemacht wurden, werden im Cluster zwischen den beiden Knoten synchronisiert.

Sie können diese Einstellungen aber nur auf dem jeweils aktiven Knoten ausführen. Auf dem inaktiven Knoten sind die Einstellungen gesperrt.

Es gibt einige Gerätespezifische Einstellungen, wie z. B. die des Management-Interfaces der Check_MK rack1, die sie zu jeder Zeit auf den einzelnen Geräten anpassen können.

5.3. IP-Addressen oder Hostnamen der Knoten

Um die IP-Konfiguration der einzelnen Knoten bearbeiten zu können, müssen Sie zunächst die Verbindung zwischen den Knoten lösen. Hierzu klicken Sie auf der Cluster-Seite auf Cluster lösen. Anschließend können Sie über die Weboberfläche der einzelnen Knoten die gewünschten Einstellungen anpassen.

Nachdem Sie die Anpassungen abgeschlossen haben, müssen Sie nun auf der Cluster-Seite Cluster neu verbinden wählen. Wenn die Knoten sich erfolgreich wieder verbinden können, nimmt der Cluster nach wenigen Minuten den Betrieb wieder auf. Den Status können Sie auf der Cluster-Seite einsehen.

5.4. Check_MK-Versionen und Monitoring-Instanzen verwalten

Auch die Monitoring-Instanzen und Check_MK-Versionen werden zwischen den beiden Knoten synchronisiert. Diese können Sie nur in der Weboberfläche des aktiven Knoten modifizieren.

Wenn Sie hierfür ebenfalls direkt auf die Cluster-IP-Adresse zugreifen, kommen Sie immer auf das Gerät, mit dem Sie diese Dinge konfigurieren können.

6. Administrative Aufgaben

6.1. Firmware-Update im Cluster

Die Firmware-Version eines Geräts wird auch im Cluster-Betrieb nicht synchronisiert. Das Update geschieht also pro Knoten. Sie haben jedoch den Vorteil, dass der eine Knoten weiterhin das Monitoring durchführen kann, während der andere Knoten aktualisiert wird.

Bei einem Update auf eine kompatible Firmware-Version sollten Sie stets wie folgt vorgehen.

Öffnen Sie zunächst das Modul Clusterung in der Weboberfläche des Knotens, der aktualisiert werden soll.

Klicken Sie nun auf das Herz-Symbol in der Spalte dieses Knotens und bestätigen die folgende Sicherheitsabfrage. Dadurch setzen Sie den Knoten in den Wartungszustand.

Knoten, die sich im Wartungszustand befinden, geben alle Ressourcen frei, die aktuell auf dem Knoten aktiv sind, woraufhin der andere Knoten diese übernimmt.

Während sich ein Knoten im Wartungszustand befindet, ist der Cluster nicht ausfallsicher. Wenn jetzt also der aktive Knoten ausgeschaltet wird, übernimmt der inaktive Knoten, der sich im Wartungszustand befindet, nicht die Ressourcen. Sollten Sie nun auch noch den zweiten Knoten in den Wartungszustand setzen, werden alle Ressourcen heruntergefahren. Diese werden erst wieder aktiviert, wenn ein Knoten aus dem Wartungszustand geholt wird. Den Wartungszustand müssen Sie stets wieder manuell entfernen.

Wenn die Cluster-Seite folgendes zeigt, sehen Sie, dass sich der Knoten im Wartungszustand befindet.

Nun können Sie auf diesem Knoten, wie auf allein betriebenen Geräten auch, das Firmware-Update durchführen.

Öffnen Sie, nachdem Sie das Firmware-Update erfolgreich durchgeführt haben, wieder die Cluster-Seite und entfernen den Wartungszustand des aktualisierten Geräts. Das Gerät fügt sich anschließend automatisch in den Cluster-Betrieb ein, womit der Cluster wieder voll funktionsfähig ist.

Es wird empfohlen auf beiden Knoten die gleiche Firmware-Version zu betreiben, also sollten Sie im Anschluss die gleiche Prozedur für den anderen Knoten wiederholen.

6.2. Cluster auflösen

Es ist möglich, die Knoten aus einem Cluster zu lösen und einzeln weiter zu betreiben. Dabei können Sie auf beiden Geräten die synchronisierte Konfiguration weiter nutzen, oder z. B. eines der Geräte wieder auf den Werkszustand zurücksetzen und neu konfigurieren.

Sie können einen oder beide Knoten im laufenden Betrieb aus dem Cluster entfernen, wenn Sie beide Knoten verwenden wollen, müssen Sie vorher sicher stellen, dass die Synchronisation der Daten ordnungsgemäß funktioniert. Dies sehen Sie auf der Cluster-Seite.

Um einen Cluster aufzulösen, klicken Sie in der Cluster-Seite der Weboberfläche auf _Cluster auflösen. Beachten Sie den Text der folgenden Sicherheitsabfrage. Dieser gibt in den verschiedenen Situationen Aufschluss darüber, in welchem Zustand sich das jeweilige Gerät nach dem Auflösen der Verbindung befindet.

Die Trennung der Geräte muss auf beiden Knoten separat durchgeführt werden, damit zukünftig beide Geräte einzeln betrieben werden können.

Wenn Sie nur eines der Geräte zukünftig verwenden wollen, lösen Sie den Cluster auf dem Gerät, das sie weiterhin verwenden wollen und stellen auf dem anderen Gerät anschließend den Werkszustand wieder her.

Nachdem Sie einen Knoten aus dem Cluster getrennt haben, werden die Monitoring-Instanzen nicht automatisch gestartet. Dies müssen Sie im Anschluss über die Weboberfläche machen, sofern Sie dies wünschen.

6.3. Ein Gerät austauschen

Wenn die Festplatten des alten Geräts in Ordnung sind, können Sie diese aus dem alten Gerät in das neue Gerät einbauen und das neue Gerät genau so verkabeln, wie das alte Gerät verkabelt war und es anschließend einschalten. Nach dem Start fügt sich das neue Gerät wieder so in den Cluster ein, wie das alte Gerät.

Wenn Sie ein altes Gerät komplett durch ein neues Gerät ersetzen wollen, sollten Sie so vorgehen, wie wenn Sie den Cluster komplett auflösen (Siehe vorheriges Kapitel). Wählen Sie dazu eines der bisherigen Geräte aus, lösen Sie dieses Gerät aus dem Cluster und erstellen einen neuen Cluster mit diesem und dem neuen Gerät.

7. Fehlerdiagnose und -behebung

7.1. Logging

Die Cluster-Verwaltung geschieht weitestgehend automatisch. Dabei entscheiden automatische Prozesse auf den Knoten auf welchem Gerät welche Ressourcen gestartet und gestoppt werden sollen. Dieses Verhalten wird in Form von Logeinträgen detailiert protokolliert. Diese Einträge erreichen Sie von der Cluster-Seite aus über den Knopf Cluster Log.

Bitte beachten Sie, dass diese Einträge, genau wie die anderen Systemmeldungen, bei einem Neustart des Geräts verloren gehen. Wenn Sie die Meldungen darüber hinaus erhalten möchten, können Sie sich die aktuelle Logdatei über Ihren Browser herunterladen oder dauerhaft eine Weiterleitung der Logmeldungen an einen Syslog-Server einrichten.