サーバー室より
久々に夜間にサーバー室にこもって作業を行った。
障害が発生したDELLサーバーのRAID5-HDDの交換作業だ。既に何度も交換作業をしているので、”お手のもの”だ。
手順はざっと以下の通り。
- (事前に)警告アラーム音を「disable」にしておく
- サーバの電源を停止する
- サーバーの側を外す
- SCSI-RAIDのHDDボックスを取り出す
- 該当のディスクを抜き取る
- 新しいディスクのSCSIジャンパーピンを調整(0-3)する
- 新しいディスクを装着する
- HDDボックスを取り付ける
- サーバーの電源を入れる
- RAIDユーティリティを起動する
- Rebuildメニューを選択し、FAIL状態のディスク(今回ID:3)を選択する
- Rebuildを実施(73GBで約2時間)
- 無事完了したら、警告アラーム音を「enable」にしてサーバーを起動する
- サービスが無事動作するかを確認する
まあ、業者に修理を頼めば良いのだが、保証期間が切れているので、スポット保守だとパーツ代(約2万円)の他に出張作業費が5-7万円ぐらい掛かるので、自分でやった方が安上がりだ。しかも、以前業者に修理をお願いしたら、RAID構成をフラットにされてしまい、結局OS(その時はWindows2000Server)から再インストールさせられる羽目になったという痛い記憶がある。今回はOSがLinuxだったからかスムーズに行った。
ともかく無事に終わってホッとしているが、システムにトラブルは付きものとはいえ、は心臓に悪い作業が多い。約20年もやっていて今さらだが、未だにトラブルには慣れない。
これからも、トラブルはなくなることはない。しかし、トラブルとどう向き合うかを明確にし、トラブルを未然に防ぐ努力をしておきたいと思っている。要は、”リスクをマネージメントすること”なんだな。