Hi, wie die meisten sicher mitbekommen haben ist am Freitag seit 20.48 einige Server nicht erreichbar gewesen. Darunter waren der - rabbit04 - rabbit03 - service01.fer - db02.fer Hintergrund dafür ist, dass der vmhost-c21.xres.traso.de nicht mehr funktionierte. Als ich gegen 22.00 auch von dem Problem mitbekommen habe, habe ich versucht den vmhost versucht zu erreichen. Dieser war zwar noch über einen Ping erreichbar aber nicht per ssh. Über die iDrac Karte bin ich noch auf den vmhost gekommen, konnte auch noch den Bildschirm sehen, der allerdings nicht mehr reagiert hatte. Darauf habe ich dann den vmhost durch gestartet. Als der vmhost wieder da war habe ich mitbekommen, dass kein Netzwerkinterface gestartet wurde. Daraufhin hab ich mich mit der Switch verbunden um den LACP-Port status zu überprüfen. Der vmhost wurde auf beiden Interfaces von der switch geblockt. Um das Problem zu beheben, habe ich die vlans noch mal alle entfernt und wieder hinzugefügt. Auch auf dem vmhost habe ich die openvswitch Konfiguration gelöscht und neu erstellt, weil dort vlan's angegeben waren die es gar nicht gab. Als diese fertig war habe ich die Maschine neu gestartet und die Interfaces waren wieder online. Nach dem start der vm's habe ich alle notwendigen vm's wieder in den autostart gepackt. Zeit ca. 23.08 Uhr. Danach habe ich die replication des db02.fer angeworfen und die repikation wieder repariert. Als die replikation wieder syncron war, war es dann ca.00.45 uhr und hab mich dann abgemeldet. Was das rabbit cluster angeht: Der rabbit05 hätte nicht betroffen sein sollen, weil dieser auf einem anderen vmhost läuft und somit nicht von dem Ausfall betroffen war. Wenn, dann hätten nur rabbit043/04 betroffen sein sollen. Zusätzlich sollten wir einen Check bauen der prüft ob alles auf dem rabbit richtig gestartet ist und ansonsten eine mail schreibt. Hätte ich das gestern noch gesehen, hätte ich mich logischer weise auch darum gekümmert. -- Mit freundlichen Grüßen Thomas Kölzow - System Administrator - ________________________________________________________ TraSo GmbH Georg-Schumann-Str. 294 D-04159 Leipzig Tel.: +49 341 909 87 532 E-Mail: t.koelzow@traso.de Internet: http://www.traso.de ________________________________________________________ Geschäftsführer: Haiko Gerdes Handelsregister: Amtsgericht Leipzig, HRB 21850
Hallo Thomas, vielen Dank für Deinen Einsatz, die umfangreiche Reparatur und die Zusammenfassung. Neben dem sicher sehr sinnvollen Hinweis bzgl. des Rabbit-Cluster Monitoring - wer baut diesen Check? - Ist das eher ein Thema bei Euch oder auf Applikationsseite - Vermutlich setzt Ihr Euch mal mit Marcus zusammen und überlegt, was da am sinnvollsten ist. Stellt sich mir die Frage nach der Ursache des Ausfalls. Hast Du da auch eine Idee? Danke noch einmal und hoffentlich allen ein ruhiges WE Mit freundlichen Grüßen Haiko Gerdes - Geschäftsführer - ___________________________________________________________________________ TraSo GmbH Georg-Schumann-Str. 294 D-04159 / Leipzig Tel.: +49 341 90 98 7 418 // Fax: +49 341 90 98 749 Mobil: +49 172 610 2849 Internet: http://traso.de E-Mail: h.gerdes@traso.de ___________________________________________________________________________ Geschäftsführer: Haiko Gerdes Handelsregister: Amtsgericht Leipzig, HRB 21850 -----Ursprüngliche Nachricht----- Von: team [mailto:team-bounces@lists.traso.de] Im Auftrag von Thomas Koelzow Gesendet: Freitag, 31. Oktober 2014 19:18 An: team@lists.traso.de Betreff: [Team] Ausfall vmhost-c21.xres.traso.de Hi, wie die meisten sicher mitbekommen haben ist am Freitag seit 20.48 einige Server nicht erreichbar gewesen. Darunter waren der - rabbit04 - rabbit03 - service01.fer - db02.fer Hintergrund dafür ist, dass der vmhost-c21.xres.traso.de nicht mehr funktionierte. Als ich gegen 22.00 auch von dem Problem mitbekommen habe, habe ich versucht den vmhost versucht zu erreichen. Dieser war zwar noch über einen Ping erreichbar aber nicht per ssh. Über die iDrac Karte bin ich noch auf den vmhost gekommen, konnte auch noch den Bildschirm sehen, der allerdings nicht mehr reagiert hatte. Darauf habe ich dann den vmhost durch gestartet. Als der vmhost wieder da war habe ich mitbekommen, dass kein Netzwerkinterface gestartet wurde. Daraufhin hab ich mich mit der Switch verbunden um den LACP-Port status zu überprüfen. Der vmhost wurde auf beiden Interfaces von der switch geblockt. Um das Problem zu beheben, habe ich die vlans noch mal alle entfernt und wieder hinzugefügt. Auch auf dem vmhost habe ich die openvswitch Konfiguration gelöscht und neu erstellt, weil dort vlan's angegeben waren die es gar nicht gab. Als diese fertig war habe ich die Maschine neu gestartet und die Interfaces waren wieder online. Nach dem start der vm's habe ich alle notwendigen vm's wieder in den autostart gepackt. Zeit ca. 23.08 Uhr. Danach habe ich die replication des db02.fer angeworfen und die repikation wieder repariert. Als die replikation wieder syncron war, war es dann ca.00.45 uhr und hab mich dann abgemeldet. Was das rabbit cluster angeht: Der rabbit05 hätte nicht betroffen sein sollen, weil dieser auf einem anderen vmhost läuft und somit nicht von dem Ausfall betroffen war. Wenn, dann hätten nur rabbit043/04 betroffen sein sollen. Zusätzlich sollten wir einen Check bauen der prüft ob alles auf dem rabbit richtig gestartet ist und ansonsten eine mail schreibt. Hätte ich das gestern noch gesehen, hätte ich mich logischer weise auch darum gekümmert. -- Mit freundlichen Grüßen Thomas Kölzow - System Administrator - ________________________________________________________ TraSo GmbH Georg-Schumann-Str. 294 D-04159 Leipzig Tel.: +49 341 909 87 532 E-Mail: t.koelzow@traso.de Internet: http://www.traso.de ________________________________________________________ Geschäftsführer: Haiko Gerdes Handelsregister: Amtsgericht Leipzig, HRB 21850 _______________________________________________ team mailing list team@lists.traso.de https://lists.traso.de/listinfo/team
Hallo Haiko, Erreichbarkeits-Check: Der Check der Erreichbarkeit des Rabbits ist bei uns bereits in Arbeit. Oliver sammelt beim Bau der "Aktion H" des Buchungskerns bereits Erfahrungen damit, aus dem xRes heraus die Rabbits zu erreichen und damit zu arbeiten. In der Folge wird er dann eine einfache Funktion bauen, die (z.B. minütlich) eine Nachricht in die Rabbits einreiht, selbige sollte dies an die Mongo weiterleiten und in einem vorgegebenen Zeitraum antworten ... wenn nicht, wird Alarm geschlagen. Das wird kein großer Aufwand, wird aber die Gesamtstrecke xRes->Rabbit->Mongo->zurück prüfen und ggf. Probleme melden. Erreichbarkeit der Rabbit am Freitag: Entgegen der Aussage vom Philip und der landläufigen Meinung, läuft das Rabbit-Clustering bei uns nicht sauber. Der Ausfall eines der 3 Rabbits führt bei uns dazu, dass ein Kundensystem (welches ist Zufall) die Rabbit (und damit die Mongo) nicht mehr nutzen kann. Wir haben dies mehrfach reproduziert. Es scheint sich aber um ein Problem auf xRes-Applikationsseite zu handeln, die Software SOLLTE eigentlich dynamisch ein anderes (erreichbares) Rabbit nutzen ... tut dies aber nicht. Wir sind auch da dran. VG SRK Am 01.11.2014 um 06:11 schrieb Haiko Gerdes:
Hallo Thomas,
vielen Dank für Deinen Einsatz, die umfangreiche Reparatur und die Zusammenfassung. Neben dem sicher sehr sinnvollen Hinweis bzgl. des Rabbit-Cluster Monitoring - wer baut diesen Check? - Ist das eher ein Thema bei Euch oder auf Applikationsseite - Vermutlich setzt Ihr Euch mal mit Marcus zusammen und überlegt, was da am sinnvollsten ist. Stellt sich mir die Frage nach der Ursache des Ausfalls.
Hast Du da auch eine Idee?
Danke noch einmal und hoffentlich allen ein ruhiges WE
Mit freundlichen Grüßen
Haiko Gerdes - Geschäftsführer - ___________________________________________________________________________ TraSo GmbH Georg-Schumann-Str. 294 D-04159 / Leipzig
Tel.: +49 341 90 98 7 418 // Fax: +49 341 90 98 749 Mobil: +49 172 610 2849
Internet: http://traso.de E-Mail: h.gerdes@traso.de ___________________________________________________________________________ Geschäftsführer: Haiko Gerdes Handelsregister: Amtsgericht Leipzig, HRB 21850
-----Ursprüngliche Nachricht----- Von: team [mailto:team-bounces@lists.traso.de] Im Auftrag von Thomas Koelzow Gesendet: Freitag, 31. Oktober 2014 19:18 An: team@lists.traso.de Betreff: [Team] Ausfall vmhost-c21.xres.traso.de
Hi,
wie die meisten sicher mitbekommen haben ist am Freitag seit 20.48 einige Server nicht erreichbar gewesen. Darunter waren der - rabbit04 - rabbit03 - service01.fer - db02.fer
Hintergrund dafür ist, dass der vmhost-c21.xres.traso.de nicht mehr funktionierte. Als ich gegen 22.00 auch von dem Problem mitbekommen habe, habe ich versucht den vmhost versucht zu erreichen. Dieser war zwar noch über einen Ping erreichbar aber nicht per ssh. Über die iDrac Karte bin ich noch auf den vmhost gekommen, konnte auch noch den Bildschirm sehen, der allerdings nicht mehr reagiert hatte. Darauf habe ich dann den vmhost durch gestartet. Als der vmhost wieder da war habe ich mitbekommen, dass kein Netzwerkinterface gestartet wurde. Daraufhin hab ich mich mit der Switch verbunden um den LACP-Port status zu überprüfen. Der vmhost wurde auf beiden Interfaces von der switch geblockt. Um das Problem zu beheben, habe ich die vlans noch mal alle entfernt und wieder hinzugefügt. Auch auf dem vmhost habe ich die openvswitch Konfiguration gelöscht und neu erstellt, weil dort vlan's angegeben waren die es gar nicht gab. Als diese fertig war habe ich die Maschine neu gestartet und die Interfaces waren wieder online. Nach dem start der vm's habe ich alle notwendigen vm's wieder in den autostart gepackt. Zeit ca. 23.08 Uhr. Danach habe ich die replication des db02.fer angeworfen und die repikation wieder repariert. Als die replikation wieder syncron war, war es dann ca.00.45 uhr und hab mich dann abgemeldet.
Was das rabbit cluster angeht:
Der rabbit05 hätte nicht betroffen sein sollen, weil dieser auf einem anderen vmhost läuft und somit nicht von dem Ausfall betroffen war. Wenn, dann hätten nur rabbit043/04 betroffen sein sollen. Zusätzlich sollten wir einen Check bauen der prüft ob alles auf dem rabbit richtig gestartet ist und ansonsten eine mail schreibt. Hätte ich das gestern noch gesehen, hätte ich mich logischer weise auch darum gekümmert.
-- Mit freundlichen Grüßen
Thomas Kölzow - System Administrator - ________________________________________________________ TraSo GmbH
Georg-Schumann-Str. 294 D-04159 Leipzig Tel.: +49 341 909 87 532
E-Mail: t.koelzow@traso.de Internet: http://www.traso.de
________________________________________________________ Geschäftsführer: Haiko Gerdes Handelsregister: Amtsgericht Leipzig, HRB 21850 _______________________________________________ team mailing list team@lists.traso.de https://lists.traso.de/listinfo/team
_______________________________________________ team mailing list team@lists.traso.de https://lists.traso.de/listinfo/team
-- Mit freundlichen Grüßen Stefan Rank-Kunitz - Lead Developer - ________________________________________________________ TraSo GmbH Georg-Schumann-Str. 294 D-04159 Leipzig Tel.: +49 341 909 87 45 E-Mail: s.rank-kunitz@traso.de Internet: http://www.traso.de ________________________________________________________ Geschäftsführer: Haiko Gerdes Handelsregister: Amtsgericht Leipzig, HRB 21850
participants (3)
-
Haiko Gerdes -
Stefan Rank Kunitz -
Thomas Koelzow