サーバー室より

久々に夜間にサーバー室にこもって作業を行った。

障害が発生したDELLサーバーのRAID5-HDDの交換作業だ。既に何度も交換作業をしているので、”お手のもの”だ。

手順はざっと以下の通り。

  1. (事前に)警告アラーム音を「disable」にしておく
  2. サーバの電源を停止する
  3. サーバーの側を外す
  4. SCSI-RAIDのHDDボックスを取り出す
  5. 該当のディスクを抜き取る
  6. 新しいディスクのSCSIジャンパーピンを調整(0-3)する
  7. 新しいディスクを装着する
  8. HDDボックスを取り付ける
  9. サーバーの電源を入れる
  10. RAIDユーティリティを起動する
  11. Rebuildメニューを選択し、FAIL状態のディスク(今回ID:3)を選択する
  12. Rebuildを実施(73GBで約2時間)
  13. 無事完了したら、警告アラーム音を「enable」にしてサーバーを起動する
  14. サービスが無事動作するかを確認する

まあ、業者に修理を頼めば良いのだが、保証期間が切れているので、スポット保守だとパーツ代(約2万円)の他に出張作業費が5-7万円ぐらい掛かるので、自分でやった方が安上がりだ。しかも、以前業者に修理をお願いしたら、RAID構成をフラットにされてしまい、結局OS(その時はWindows2000Server)から再インストールさせられる羽目になったという痛い記憶がある。今回はOSがLinuxだったからかスムーズに行った。

ともかく無事に終わってホッとしているが、システムにトラブルは付きものとはいえ、は心臓に悪い作業が多い。約20年もやっていて今さらだが、未だにトラブルには慣れない。

これからも、トラブルはなくなることはない。しかし、トラブルとどう向き合うかを明確にし、トラブルを未然に防ぐ努力をしておきたいと思っている。要は、”リスクをマネージメントすること”なんだな。