Hallo an alle, hier mal ein schriftlicher Zwischenstand zur aktuellen FER-Problematik (ich streue es, weil schon viele beteiligt waren und aktuell noch sind: - Der service01 von FER ist seit ca. 10 Uhr unter erhöhter Last es begann bei einem Load von 35, inzwischen ist er dauerhaft zwischen 50 und 65. - Die Anfragen und Buchungszahlen liegen ca. 20-30% hinter dem Normwert - Die Verteilung der Anfragen ist nicht verändert zu sonst, es ist keine gezielter Angriff auszumachen. - Weder Stadis Gateways, TBM XML, TT noch XPACK Schnittstelle zeigen ein abnormales Verhalten wie erhöhte Fehlermenge, erhöhte Logs oder Ähnliches. Lediglich die Antwortzeiten sind (bei dem Load verständlich) stark erhöht, etwa 20-30 Sekunden in der Spitze. - die Anzahl der Apache Prozesse ist am Maximum von 128. Daher auch der hohe Load. Die Kiste blockiert sich also selbst. - Datenbank, Cacheserver und angeschlossene Systeme laufen normal und sind in keiner Weise auffällig. - Das Abschalten der Logs wie bei JT vor einer Weile (JT-875) hat nichts gebracht - Das Collectd funktioniert seit Dienstag nicht mehr. Insofern haben wir kein Monitoring aus dieser Quelle Der Server ist also nicht weg, aber sehr langsam. Es gibt Anfragen und auch Buchungen, vermutlich aber auch viele Timeouts auf Seiten der anfragenden Systeme. Nach wie vor ist unklar, was genau das Problem ist. Soviel von meiner Seite. René -- René Lange - Leiter Entwicklung - activate communication systems GmbH G.-Schumann-Str. 294 04159 Leipzig telefon: (+49) 0 341 90987 507 email: r.lange@activate.de Geschäftsführer: Markus Hartwig, Rainer Jansen Handelsregister: Amtsgericht Leipzig (HRB 21850)
Jetzt kommt auch noch der der keine Ahnung hat... Wir hatten im letzten Jahr den Fall das sich die Stadis Gateways gegenseitig durch einen nicht buchbaren Prozess ständig blockiert haben und damit der Load nach oben gegangen ist. Das war damals sehr schwer zu erkennen. Aber das habt ihr sicherlich bis ins Detail geprüft. LG R -----Ursprüngliche Nachricht----- Von: team-bounces@lists.activate.de [mailto:team-bounces@lists.activate.de] Im Auftrag von Rene Lange Gesendet: Freitag, 15. März 2013 16:55 An: Haiko Gerdes; Rainer Jansen; Team activate Betreff: [Team] Stand FER Server Hallo an alle, hier mal ein schriftlicher Zwischenstand zur aktuellen FER-Problematik (ich streue es, weil schon viele beteiligt waren und aktuell noch sind: - Der service01 von FER ist seit ca. 10 Uhr unter erhöhter Last es begann bei einem Load von 35, inzwischen ist er dauerhaft zwischen 50 und 65. - Die Anfragen und Buchungszahlen liegen ca. 20-30% hinter dem Normwert - Die Verteilung der Anfragen ist nicht verändert zu sonst, es ist keine gezielter Angriff auszumachen. - Weder Stadis Gateways, TBM XML, TT noch XPACK Schnittstelle zeigen ein abnormales Verhalten wie erhöhte Fehlermenge, erhöhte Logs oder Ähnliches. Lediglich die Antwortzeiten sind (bei dem Load verständlich) stark erhöht, etwa 20-30 Sekunden in der Spitze. - die Anzahl der Apache Prozesse ist am Maximum von 128. Daher auch der hohe Load. Die Kiste blockiert sich also selbst. - Datenbank, Cacheserver und angeschlossene Systeme laufen normal und sind in keiner Weise auffällig. - Das Abschalten der Logs wie bei JT vor einer Weile (JT-875) hat nichts gebracht - Das Collectd funktioniert seit Dienstag nicht mehr. Insofern haben wir kein Monitoring aus dieser Quelle Der Server ist also nicht weg, aber sehr langsam. Es gibt Anfragen und auch Buchungen, vermutlich aber auch viele Timeouts auf Seiten der anfragenden Systeme. Nach wie vor ist unklar, was genau das Problem ist. Soviel von meiner Seite. René -- René Lange - Leiter Entwicklung - activate communication systems GmbH G.-Schumann-Str. 294 04159 Leipzig telefon: (+49) 0 341 90987 507 email: r.lange@activate.de Geschäftsführer: Markus Hartwig, Rainer Jansen Handelsregister: Amtsgericht Leipzig (HRB 21850) _______________________________________________ team mailing list team@lists.activate.de https://lists.activate.de/listinfo/team
Jupp, haben wir. Enrico hat alle Gateways ausgestellt und die Last hat sich nur unwesentlich geändert. Dennoch danke für den Tipp. Man muss schon mal quer denken, um evtl. etwas zu finden. Mit freundlichen Grüßen Haiko Gerdes - Projektmanagement - ___________________________________________________________________________ activate communication systems GmbH Georg-Schumann-Str. 294 D-04159 / Leipzig Tel.: +49 341 90 98 7 418 // Fax: +49 341 90 98 749 Mobil: +49 172 610 2849 Internet: http://activate.de E-Mail: h.gerdes@activate.de ___________________________________________________________________________ Geschäftsführer: Markus Hartwig. Rainer Jansen Handelsregister: Amtsgericht Leipzig, HRB 21850 -----Ursprüngliche Nachricht----- Von: team-bounces@lists.activate.de [mailto:team-bounces@lists.activate.de] Im Auftrag von Rainer Jansen - TJC-Knowledge Gesendet: Freitag, 15. März 2013 17:31 An: 'Rene Lange'; 'Haiko Gerdes'; 'Rainer Jansen'; 'Team activate' Betreff: Re: [Team] Stand FER Server Jetzt kommt auch noch der der keine Ahnung hat... Wir hatten im letzten Jahr den Fall das sich die Stadis Gateways gegenseitig durch einen nicht buchbaren Prozess ständig blockiert haben und damit der Load nach oben gegangen ist. Das war damals sehr schwer zu erkennen. Aber das habt ihr sicherlich bis ins Detail geprüft. LG R -----Ursprüngliche Nachricht----- Von: team-bounces@lists.activate.de [mailto:team-bounces@lists.activate.de] Im Auftrag von Rene Lange Gesendet: Freitag, 15. März 2013 16:55 An: Haiko Gerdes; Rainer Jansen; Team activate Betreff: [Team] Stand FER Server Hallo an alle, hier mal ein schriftlicher Zwischenstand zur aktuellen FER-Problematik (ich streue es, weil schon viele beteiligt waren und aktuell noch sind: - Der service01 von FER ist seit ca. 10 Uhr unter erhöhter Last es begann bei einem Load von 35, inzwischen ist er dauerhaft zwischen 50 und 65. - Die Anfragen und Buchungszahlen liegen ca. 20-30% hinter dem Normwert - Die Verteilung der Anfragen ist nicht verändert zu sonst, es ist keine gezielter Angriff auszumachen. - Weder Stadis Gateways, TBM XML, TT noch XPACK Schnittstelle zeigen ein abnormales Verhalten wie erhöhte Fehlermenge, erhöhte Logs oder Ähnliches. Lediglich die Antwortzeiten sind (bei dem Load verständlich) stark erhöht, etwa 20-30 Sekunden in der Spitze. - die Anzahl der Apache Prozesse ist am Maximum von 128. Daher auch der hohe Load. Die Kiste blockiert sich also selbst. - Datenbank, Cacheserver und angeschlossene Systeme laufen normal und sind in keiner Weise auffällig. - Das Abschalten der Logs wie bei JT vor einer Weile (JT-875) hat nichts gebracht - Das Collectd funktioniert seit Dienstag nicht mehr. Insofern haben wir kein Monitoring aus dieser Quelle Der Server ist also nicht weg, aber sehr langsam. Es gibt Anfragen und auch Buchungen, vermutlich aber auch viele Timeouts auf Seiten der anfragenden Systeme. Nach wie vor ist unklar, was genau das Problem ist. Soviel von meiner Seite. René -- René Lange - Leiter Entwicklung - activate communication systems GmbH G.-Schumann-Str. 294 04159 Leipzig telefon: (+49) 0 341 90987 507 email: r.lange@activate.de Geschäftsführer: Markus Hartwig, Rainer Jansen Handelsregister: Amtsgericht Leipzig (HRB 21850) _______________________________________________ team mailing list team@lists.activate.de https://lists.activate.de/listinfo/team _______________________________________________ team mailing list team@lists.activate.de https://lists.activate.de/listinfo/team
Hallo zusammen, ein paar Ergänzungen, - der service01 FER ist bereits gestern Nachmittag 17:24 unter Last gewesen - Seit ca. 2 Tagen ist die Anzahl der Mulitprovider Requests hochgegangen - Ferien nutzt jetzt intensiver - Heute hatten wir die höchste Last auf dem System ca. 105.000 erfolgreiche Requests, vorher sind es mindestens 10% weniger gewesen - Tropo hat aber etwas genauso viele und keine Problem - LMX hat mehr aber auch einen größeren service01 - Warum ist collectd ausgefallen und anschließend haben wir ein Problem auf dem System? - Dienstag um 18:00 hat sich der service01 schon einmal beschwert -- Vielleicht liegt hier die Ursache für den Nagios Ausfall -- Und dann für die Probleme heute Heute ist die Last um 19:27 und um 22:09 runter gegangen Zwischendurch wieder hoch Was läuft da nicht? Mit freundlichen Grüßen Haiko Gerdes - Projektmanagement - ___________________________________________________________________________ activate communication systems GmbH Georg-Schumann-Str. 294 D-04159 / Leipzig Tel.: +49 341 90 98 7 418 // Fax: +49 341 90 98 749 Mobil: +49 172 610 2849 Internet: http://activate.de E-Mail: h.gerdes@activate.de ___________________________________________________________________________ Geschäftsführer: Markus Hartwig. Rainer Jansen Handelsregister: Amtsgericht Leipzig, HRB 21850 -----Ursprüngliche Nachricht----- Von: team-bounces@lists.activate.de [mailto:team-bounces@lists.activate.de] Im Auftrag von Rene Lange Gesendet: Freitag, 15. März 2013 16:55 An: Haiko Gerdes; Rainer Jansen; Team activate Betreff: [Team] Stand FER Server Hallo an alle, hier mal ein schriftlicher Zwischenstand zur aktuellen FER-Problematik (ich streue es, weil schon viele beteiligt waren und aktuell noch sind: - Der service01 von FER ist seit ca. 10 Uhr unter erhöhter Last es begann bei einem Load von 35, inzwischen ist er dauerhaft zwischen 50 und 65. - Die Anfragen und Buchungszahlen liegen ca. 20-30% hinter dem Normwert - Die Verteilung der Anfragen ist nicht verändert zu sonst, es ist keine gezielter Angriff auszumachen. - Weder Stadis Gateways, TBM XML, TT noch XPACK Schnittstelle zeigen ein abnormales Verhalten wie erhöhte Fehlermenge, erhöhte Logs oder Ähnliches. Lediglich die Antwortzeiten sind (bei dem Load verständlich) stark erhöht, etwa 20-30 Sekunden in der Spitze. - die Anzahl der Apache Prozesse ist am Maximum von 128. Daher auch der hohe Load. Die Kiste blockiert sich also selbst. - Datenbank, Cacheserver und angeschlossene Systeme laufen normal und sind in keiner Weise auffällig. - Das Abschalten der Logs wie bei JT vor einer Weile (JT-875) hat nichts gebracht - Das Collectd funktioniert seit Dienstag nicht mehr. Insofern haben wir kein Monitoring aus dieser Quelle Der Server ist also nicht weg, aber sehr langsam. Es gibt Anfragen und auch Buchungen, vermutlich aber auch viele Timeouts auf Seiten der anfragenden Systeme. Nach wie vor ist unklar, was genau das Problem ist. Soviel von meiner Seite. René -- René Lange - Leiter Entwicklung - activate communication systems GmbH G.-Schumann-Str. 294 04159 Leipzig telefon: (+49) 0 341 90987 507 email: r.lange@activate.de Geschäftsführer: Markus Hartwig, Rainer Jansen Handelsregister: Amtsgericht Leipzig (HRB 21850) _______________________________________________ team mailing list team@lists.activate.de https://lists.activate.de/listinfo/team
participants (3)
-
Haiko Gerdes -
Rainer Jansen - TJC-Knowledge -
Rene Lange