東工取システムの障害原因は回線借用

 20, 2009 01:05
5月12日に発生した東京工業品取引所の取引不可の原因は、
回線キャリアの回線借用がトリガーとなったとの事です。

珍しい現象ですね。

東工取システム、障害原因究明 回線工事で高負荷
5月12日午前2時から行われた回線キャリアの回線借用工事で、短時間に同時切断と再接続を繰り返した。これにより、待機系ルーターは午前2時から立会開始後も高負荷状態が続き、徐々に現用系ルーターも高負荷状態になったことが、システム障害につながったとした。

この文章を読む限り

・回線借用は待機系ルータ側の回線

・リンクアップダウンの繰り返しでルーターの使用率増加(バグ?)

・正系ルーターにも波及

って事ですが、ホットスタンバイだったのか、負荷分散で運用していたのか構成が判らないので
イマイチ理解できないのが惜しいです。

もし運用体制の項目に、ルーターのCPU使用率を監視項目があり、高負荷だったら
影響の無い時間帯で再起動する運用をとっていたら障害は防げていたのかな?

面倒見ている環境で、ルーターのCPU使用率を自動でチェックする仕組みは動かしていないので
考えておいた方が良さそう。

COMMENT 0


WHAT'S NEW?