トップ «前の日記(2012/06/24 (日) ) 最新 次の日記(2012/06/26 (火) )» 編集 RSS feed

HsbtDiary


2012/06/25 (月) [長年日記]

社内のバックアップ座談会に参加してきた

ファーストサーバーの障害報告をお題にどうすべきだったのか、組織ごとに思考実験してみると中々良いのでは 2012-06-24 23:58:58 +0000 Reply Retweet Favorite

弊社もホスティングサービスをやっていることから、今日出てきた中間報告書 をベースにして社内で問題と原因を考えたり、非技術部門と情報共有をする座談会が開催されることになったので、パインアメとどんぐりガムを持ち込んで参加してきた。

  • 原因1については、変更スクリプトであってもバージョン管理やITSに入れるとか、実行前のレビューとか、手で打ち込むようなオペレーションを実行する時にペア作業しようというあたり。
  • 原因2については、ほぼ対策するのは無理だろうという見解で一致。今だから他のサーバーに影響がないことを検証しようと思えば出来るけど、それでも検知システムを入れても対症療法になってしまうし、そもそも作業者が意図しない領域が変更されてないということを検証するのは極めて困難だしね。
  • 原因3については、バックアップと呼ばれているものが実は待機系だよねーというあたりでスタートして、バックアップを何世代取るのが良いとか、リストアの練習をどれくらいの頻度でしてるとかそういう情報共有を中心に話した。詳しくは内緒。

この三つを話した後は広報や法務の人と、こういう時にはどうしようとかこういう対応は良くないとか、そういう話を中心にみんなで頷いたところで1時間経過でおしまい。緊急開催だったけど、中々良い感じに情報共有したり新しいアクションを起こしたり出来そうで中々良い結果だった。

ファーストサーバーは障害を起こして大変とは思うけど、そんな中出てきた中間報告書やFAQは、障害発生から5日目に公開した内容としては良く出来ていて、そこから学ぶべき所は多岐にわたるなあ思ったのでした。