アトム-サイト
[ アトム-サイト ] - 管理人さんのページです。
feed-icon RSS2.0   feed-icon Atom
[ Linux ] 一覧へ
S.M.A.R.T.
管理人さんのブログ 2015-05-07 08:03:36

通常のHDD交換
構築したサーバから、以下の2通の警告メールが届いています。

タイトル:『SMART error (OfflineUncorrectableSector) detected on host: ****』
内容:Device: /dev/sdc, 9 Offline uncorrectable sectors

タイトル:『SMART error (CurrentPendingSector) detected on host: ****』
内容:Device: /dev/sdc, 12 Currently unreadable (pending) sectors

sdcなので、RAIDではない通常のHDDのエラーです。
# smartctl -a /dev/sdc
で、調べなおすと、確かにその値が出てますね。
買って1年しか経ってないHDDなのに…。

試しに、一度フォーマットしてみたんですが…。
# mkfs -t ext3 /dev/sdc1
『Currently unreadable (pending) sectors』が12から10に減っただけでした。

ちなみに、フォーマット形式を調べるには、
# cat /etc/fstab
ですね。
/dev/md0 / ext3 defaults 1 1
/dev/sdc1 /mnt/sdc ext3 defaults 1 2
tmpfs /dev/shm tmpfs defaults 0 0
devpts /dev/pts devpts gid=5,mode=620 0 0
sysfs /sys sysfs defaults 0 0
proc /proc proc defaults 0 0
/dev/md1 swap swap defaults 0 0
『ext3』とかになってます。
それと、最後の第6列の数字は、システム起動時のfsckチェック(『0』:チェックを行わない)。
後述しますが、/dev/sdc1は『2』→『0』に変更しました。

余っているHDDもあるので、交換してみる事にします。
まずは、/etc/fstabファイルを編集して、起動時にmountしない様にして、shutdown。
システム起動時のfsckチェックを行わない『0』にすればOK。
電源落としたら、HDDを交換します。
電源入れたら、
# dmesg | grep sdc
で、HDDが繋がっている事を確認します(SATAで3台HDDを繋げている場合)。
# fdisk /dev/sdc
で、パーティションを作ります(n->p->1->wとコマンドを打っていくだけです)。
作ったパーティションをフォーマット。
# mkfs -t ext3 /dev/sdc1
フォーマット終了したら、マウントして使います。
# mount /dev/sdc1 /mnt/sdc
最後に、/etc/fstabファイルを編集して起動時にマウントする様に戻します。

HDD交換後、警告メールは無くなりました(めでたしめでたし)。

RAID1 HDD交換
組んで半年なのに、警告メール到着。
タイトル:『SMART error (CurrentPendingSector) detected on host:****』
タイトル:『Fail event on /dev/md0:****』
こんな感じのメールが数通。
昨日、HDDのアクセスランプの挙動がおかしかったので「変だな?」とは思っていたんですが…。
メール内容を見ると、どうやらRAID1で組んでる一方(sda)が壊れているっぽいです。

# cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 sdb2[1]
3959936 blocks [2/1] [_U]
md0 : active raid1 sdb1[1]
972799872 blocks [2/1] [_U]
mdstatファイル見ても、ダメなのが確認できます。

# mdadm --detail /dev/md0
この表示の最後、
Number Major Minor RaidDevice State
0 0 0 0 removed
1 8 17 1 active sync /dev/sdb1
ココでも、一方がremovedされているのが確認できます。

# smartctl -a /dev/sda
# fdisk -l /dev/sda
これらのコマンドで、sdaのHDDの情報が見れません(sdbとかは見れます)。
壊れてますね、sda。

以前、一方がNGでも立ち上がる様にしていたので、壊れているHDDを外して再起動。
Linux S.M.A.R.T. (.jpg)
あれれ?「メンテナンスしろ!」と出ます(手持ちの予備HDDは無いので、今はとりあえず起動させたいんですが…)。
後で気付いたんですが…。
よくよく見ると、sdcですね、エラー。
抜いた事により、RAIDと関係ないHDDのfsckチェックが引っかかる模様。
/etc/fstab の最後の値をチェックしない『0』にすれば解決です。

仕方ない、また壊れてるHDDを付けて再起動です。
Linux S.M.A.R.T. (.jpg)
おや?ブートローダーに処理が移ってしまいました。
とりあえずもう一度電源入れ直すと、片方のHDDだけで起動してくれましたね(いくつもエラー表示が出て、時間かかりましたが…)。

新しいHDDがきたら、交換作業ですね。
Linux S.M.A.R.T. (.jpg)
HDD来ました、ネットで購入(TUKUMO)。

まずは、正常なsdbのパーティションを表示させます。
# fdisk -l /dev/sdb
Disk /dev/sdb: 1000.2 GB, 1000204886016 bytes
255 heads, 63 sectors/track, 121601 cylinders
Units = シリンダ数 of 16065 * 512 = 8225280 bytes
デバイス Boot Start End Blocks Id System
/dev/sdb1 * 1 121108 972799978+ fd Linux raid 自動検出
/dev/sdb2 121109 121601 3960022+ fd Linux raid 自動検出

新しいHDDに入れ替えて再起動(新しくしたら、普通に再起動できました)。
参考までに、bootさせる為に、新しい方をsdbにするという手もあります(自分はgrubを両方に入れているので、どちらでもOK)。
# hdparm -I /dev/sda
# hdparm -I /dev/sdb
# hdparm -I /dev/sdc
# fdisk -l /dev/sda
# fdisk -l /dev/sdb
# fdisk -l /dev/sdc
↑これらで、念のため入れ替えたHDDを含めて、どう接続しているかの確認をします(新しいHDDが実はつながれてなかったりすると、sdaが想定していないHDDだったりします)。
# fdisk /dev/sda
でsdbと同じパーティションを作ります。
コマンド的には、以下です。
n (新規パーティション作成) → p (基本パーティション)
 → 1 → 1 (開始シリンダ) → 121108 (終了シリンダ)
n (新規パーティション作成) → p (基本パーティション)
 → 2 → 121109 (開始シリンダ) → 121601 (終了シリンダ)
t (パーティションID変更) → 1 (パーティション番号) → fd (Software RAID用ID)
t (パーティションID変更) → 2 (パーティション番号) → fd (Software RAID用ID)
a (起動フラグ設定) → 1 (パーティション番号)
w (ディスクに書き込んでfdiskを終了)

作成したパーティションをRAIDに参加させます。
# mdadm /dev/md0 --add /dev/sda1
# mdadm /dev/md1 --add /dev/sda2
このコマンドで、同期が始まります。

同期には時間かかりますね(同期終了かどうかは下記コマンド)。
# mdadm --detail /dev/md0
最後のstateに注目してください。『active sync』で同期完了。『spare rebuilding』は同期中。

ちなみに、壊れたHDDを無理やりRAIDに参加させても
# mdadm --detail /dev/md0
の最後の表示のstateに『faulty spare』の/dev/sda1が追加されるだけですね。

後は、ブートローダをsda1に入れるだけです。
sda1は、/bootパーティションです。
まずは確認してみます。
# df /boot
Filesystem 1K-ブロック 使用 使用可 使用% マウント位置
/dev/md0 942335500 6545500 887150008 1% /
マウントが『/』となっている事に注目(『/boot』となっている場合(後述)は、grubインストール時にbootディレクトリ指定はいらない)。
/bootパーティションがmd0なので、md0が何で構成されてるかを見ます。
# grep md0 /proc/mdstat
md0 : active raid1 sda1[0] sdb1[1]
sda1とsdb1でmd0が構成されています。
# grub
Probing devices to guess BIOS drives. This may take a long time.
GNU GRUB version 0.97 (640K lower / 3072K upper memory)
grub> device (hd0) /dev/sda (sdaを指定する)
device (hd0) /dev/sda
grub> root (hd0,0) (最後の0が1番目のsda1という事で、1つずつズレた番号を指定します)
root (hd0,0)
Filesystem type is ext2fs, partition type 0xfd
grub> install /boot/grub/stage1 (hd0) /boot/grub/stage2 p /boot/grub/grub.conf
install /boot/grub/stage1 (hd0) /boot/grub/stage2 p /boot/grub/grub.conf
dfが/bootの場合:grub> install /grub/stage1 (hd0) /grub/stage2 p /grub/grub.conf
grub> quit
quit

再交換
あれから2年。
また、HDD不調のメールが届きました。
『SMART error (CurrentPendingSector) detected on host:******』
前回換えたsdaですね(2年は早い気がするなぁ)。
今回は、いきなり壊れるのではなく、Current_Pending_Sector のエラーが時間ごとに増えていってます。
# smartctl -a /dev/sda
197 Current_Pending_Sector ←この値
最初は1だったのが、2日後には329。
Current_Pending_SectorのHDDをフォーマットし直してもダメなのは以前の実験で分かってるので、素直に交換ですね。
RAID組んでいるので、今のところサーバ運営には問題無し(1つがダメでももう一つがあるし、バックアップとして3重にしてある)。
不安定な状態でありながらも、RAID自体には問題ないみたい。
# cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 sdb2[1] sda2[0]
3959936 blocks [2/2] [UU]
md0 : active raid1 sdb1[1] sda1[0]
972799872 blocks [2/2] [UU]
unused devices: <none>
HDD来たので、交換開始!
基本的には前と同じ。RAIDとしてまだ認識しているので、切り離す作業が最初にあるくらいです。
# mdadm --manage /dev/md0 --fail /dev/sda1
# mdadm --manage /dev/md1 --fail /dev/sda2
# cat /proc/mdstat
# mdadm --manage /dev/md0 --remove /dev/sda1
# mdadm --manage /dev/md1 --remove /dev/sda2
# cat /proc/mdstat



※ 『S.M.A.R.T.』に繋がる関連物を 視覚的に探しだせるサイトを作ってみました(よろしければクリックしてみてくださいね)。

 リンク元:
(1) : https://www.google.co.jp/

 月間ページ閲覧者数:14人

[ Linux ] 一覧へ


<< 2017年12月
2017年12月14日(木)
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31

 最近の書き込み

SMTP
  <2016-04-06 12:03:21>
S.M.A.R.T.
  <2015-05-07 08:03:36>
POP
  <2015-04-21 11:33:37>
Linuxコマンド
  <2015-04-21 11:03:04>
アルバートオデッセイ
  <2014-08-04 23:12:12>
トイレ
  <2014-01-31 08:58:16>
(*)調光スイッチ
  <2013-09-30 10:46:11>
(*)調光スイッチ
  <2013-09-20 01:26:34>
(*)調光スイッチ
  <2013-09-17 12:21:11>
(*)調光スイッチ
  <2013-09-15 20:13:59>


 カテゴリー

おでかけ(83)
サッカー(45)
旅(45)
DIY(43)
食べ物(39)
映画(36)
家(35)
季節(34)
健康(32)
地元(29)
本(29)
家族(29)
モバイル(23)
生物(23)
学校(22)
家電(21)
ドラマ(21)
風景(18)
Web(18)
PCハード(17)
通勤(16)
ゲーム(16)
Winアプリ(15)
ブログ(14)
Linux(13)
 ・ SMTP
 ・ S.M.A.R.T.
 ・ POP
 ・ Linuxコマンド
 ・ HDD不調
 ・ ネットコマンド
 ・ WebサーバのSSL化
 ・ IP aliasingとバーチャルホスト
 ・ Turbolinux 10 Server
 ・ SUSE アクティベーションコード
 ・ パーティション削除
 ・ logrotate
 ・ crontab
飲み物(13)
自転車(13)
ゴルフ(11)
ブラウザ(11)
ネットワーク(10)
javascript(10)
足技(9)
php(9)
会社(8)
感銘映像(8)
税金(6)
空想(5)
VMware(5)
Ruby(4)
データベース(3)
perl(1)