连续2天,有2台不同的服务器,都出现硬盘故障,是该重视硬盘的健康情况了。
S.M.A.R.T的全称为“Self-Monitoring,Analysis and Reporting Technology”,即“自我监测、分析及报告技术”。支持S.M.A.R.T技术的硬盘可以通过硬盘上的监测指令和主机上的监测软件对磁头、盘片、马达、电路的运行情况、历史记录及预设的安全值进行分析、比较。当出现安全值范围以外的情况时,就会自动向用户发出警告。
wikipedia有关于S.M.A.R.T的详细介绍
http://en.wikipedia.org/wiki/S.M.A.R.T.
Ubuntu系统启用S.M.A.R.T
1.smartd和smartctl等tool包含在smartmontools套件
#apt-get install smartmontools
2.检查硬盘是否开启smart
#smartctl /dev/sda
如果看到以下提示,则说明未开启
SMART support is: Available – device has SMART capability.
SMART support is: Disabled
执行以下步骤开启
smartctl –smart=on –offlineauto=on –saveauto=on /dev/sda
3.检查硬盘健康状况
# smartctl -H /dev/sda
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
如果这里显示Failure,那么最好立刻给服务器更换硬盘。虽说,有时候人品好的话,Failure报警后,还能撑好几个月。但是,作为SA,相信大家是明白“数据价值远远大于硬件本身”的道理。
4.设置Failure报警,以便及时发现
# vim /etc/smartd.conf
/dev/sda -H -m root
/dev/sdb -H -m root
5.设置smartmontools随系统启动
# vim /etc/default/smartmontools
# uncomment to start smartd on system startup
start_smartd=yes
no comment untill now