Мониторинг на Smart в CentOS

Бележка за мониторинга на твърди дискове S.M.A.R.T. Всеки съвременен твърд диск има контролер за здравето на диска, наречен S.M.A.R.T. Какво означава - Селф-Монториране, Aнализа и Rизнасянетехнологията е технология за самоконтрол, анализ и докладване. Бележката разказва за инсталирането на помощната програма "smartd" за наблюдение на състоянието на твърдия диск и изпращане на отчет до пощата на системния администратор. Също така ще научите как се наблюдава състоянието на набега на софтуерния масив чрез родната помощна програма „mdadm monitor“ с изпращане на отчет до пощенската кутия.

Инсталиране на помощната програма SMART Monitoring
Ръчна проверка на твърдия диск SMART
Настройка на автоматични известия по имейл
Мониторинг на софтуерен масив
Конфигуриране на изпращането на отчет за състоянието на софтуерно нападение

Инсталиране на помощната програма SMART Monitoring

# yum инсталирайте smartmontools -y

Поставяме демона smartd при стартиране:

# chkconfig smartd on

Ръчна проверка на твърдия диск SMART

Проверяваме наличните интелигентни дискове в системата, намираме дисковете, които имаме:

# fdisk -l | grep/dev /

Диск/dev /sdc: 1000,2 GB, 1000204886016 байта

Диск/dev /sdb: 2000.4 GB, 2000398934016 байта

/ dev/sdb1 1 243202 1953514552+ 83 Linux

Диск/dev /sda: 160,0 GB, 160041885696 байта

/ dev/sda1 * 1 1913 15360000 83 Linux

/ dev/sda2 1913 3188 10240000 83 Linux

/ dev/sda3 3188 4208 8192000 82 Linux swap/Solaris

/ dev/sda4 4208 19458 122497880 5 Удължен

/ dev/sda5 4208 19458 122496000 83 Linux

Диск/dev /sdd: 1000,2 GB, 1000204886016 байта

Диск/dev/md0: 1000,1 GB, 1000070512640 байта

Общо виждаме четири физически диска:

Проверка на Smart на първия sda диск:

# smartctl -a/dev/sda

smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-431.23.3.el6.x86_64] (локално изграждане)

=== СТАРТ НА ИНФОРМАЦИОННИЯ СЕКЦИЯ ===

Семейство модели: Seagate Barracuda 7200.9

Модел на устройството: ST3160212AS

Сериен номер: 9LS531ZF

Версия на фърмуера: 3. AAE

Капацитет на потребителя: 160 041 885 696 байта [160 GB]

Размер на сектора: 512 байта логически/физически

Устройството е: В базата данни smartctl [за подробности използвайте: -P show]

Версията на ATA е: 7

Стандартът ATA е: Точната версия на спецификацията на ATA не е посочена

Местно време е: Нед Август 31 18:29:45 2014 ALMT

Поддръжката на SMART е: Налична - устройството има способност за SMART.

Поддръжката на SMART е: Активирана

=== СТАРТ НА ЧЕТЕНЕ НА СЕКЦИЯ ЗА УМНИ ДАННИ ===

Резултат от тест за самооценка на SMART за цялостно здраве: ПРИЛОЖЕН

Номер на ревизия на структурата на данните за SMART атрибути: 10

Специфични за производителя SMART атрибути с прагове:

ИДЕНТИФИКАЦИЯ ATTRIBUTE_NAME ФЛАГА СТОЙНОСТ НАЙ-ЛОШИЯТ ТЪРГ ТИП АКТУАЛИЗИРАН WHEN_FAILED RAW_VALUE

1 Raw_Read_Error_Rate 0x000f 118 091 006 Винаги преди неуспех - 0

3 Spin_Up_Time 0x0003 093 093 000 Предварителна грешка Винаги - 0

4 Start_Stop_Count 0x0032 100 100 020 Old_age Винаги - 431

5 Преразпределен_сектор_Ct 0x0033 100 100 036 Предварително неизправност Винаги - 0

7 Seek_Error_Rate 0x000f 061 058 030 Предварителна грешка Винаги - 824918194338

9 Power_On_Hours 0x0032 070 070 000 Old_age Винаги - 26712

10 Spin_Retry_Count 0x0013 100 100 097 Предварителна грешка Винаги - 0

12 Power_Cycle_Count 0x0032 100 100 020 Old_age Винаги - 493

187 Reported_Uncorrect 0x0032 100 100 000 Old_age Винаги - 0

189 High_Fly_Writes 0x003a 088 088 000 Old_age Винаги - 12

190 Airflow_Temperature_Cel 0x0022 062 051 045 Old_age Винаги - 38 (Min/Max 38/39)

194 Temperature_Celsius 0x0022 038 049 000 Old_age Винаги - 38 (0 17 0 0 0)

195 Хардуер_ECC_ Възстановен 0x001a 065 046 000 Old_age Винаги - 115394754

197 Current_Pending_Sector 0x0012 100 100 000 Old_age Винаги - 0

198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Офлайн - 0

199 UDMA_CRC_Error_Count 0x003e 200 188 000 Old_age Винаги - 12

200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Офлайн - 0

202 Data_Address_Mark_Errs 0x0032 100 253 000 Old_age Винаги - 0

Тук подчертах модела на твърдия диск, серията, фърмуера и най-основните интелигентни параметри, които ни казват за здравето на диска. Ако растат следните параметри:

- броят на операциите на преназначените сектори (5 - Преразпределен_сектор)

- броят на опитите за завъртане на дисковете до работна скорост (10 - Spin_Retry_Count)

- температура (194 - Температура_ Целзий)

- броят на секторите, които са кандидати за замяна (197 - Current_Pending_Sector)

И все пак, ако стойността на UDMA_CRC_Error_Count расте, трябва да промените цикъла. Load_Cycle_Count понякога расте на WD твърди дискове - ще бъде полезно да го наблюдавате и вие. На Samsung може да расте 200 Multi_Zone_Error_Rate, като цяло, вижте подробния отчет S.M.A.R.T., възможно е други атрибути на доклада за самотестване да повлияят на работата.

Настройка на автоматични известия по имейл

Помислете за просто изпращане на отчет по пощата на помощната програма за поща.

Отворете/etc/crontab и въведете там реда за наблюдение на смарт на два диска sda и sdb:

0 8 * * * (/ usr/sbin/smartctl -a/dev/sda;/usr/sbin/smartctl -a/dev/sdb;) | поща-root „Име на сървър SMART доклад“ корен

Вторият начин е православен.

Отворете файла /etc/smartd.conf

И добавете редовете:

/ dev/sda -I 194 -W 4,45,55 -R 5 -R 10 -R 197 -m [email protected]

/ dev/sdb -I 194 -W 4,45,55 -R 10 -R 197 -m [email protected]

- наблюдаваме два диска sda и sdb.

-I 194 -W 4,45,55 е наблюдение на температурата, ако то стане с 4 градуса по-високо или надвишава 45 градуса.

-R 5 - наблюдение на параметъра Reallocated_Sector, ако се промени, ще дойде отчет

-R 10 - наблюдение на параметъра Spin_Retry_Count, ако се промени, ще дойде отчет

-R 197 - мониторинг на параметъра Current_Pending_Sector, ако се промени, ще дойде отчет

Рестартирайте демона smartd:

# услуга smartd рестартиране

Мониторинг на софтуерен масив

За да проверите целостта на масива ръчно, въведете командата:

md0: активен рейд1 sdd[един] sdc[0]

976631360 блокира супер 1.2 [2/2] [Uu]

Основното тук е:

- два диска sdd и sdc, които са в масива. Ако видите само един диск, това трябва да ви предупреди.

- [Uu], което символизира, че нито един диск не е изпаднал от масива, а два диска са влюбени един в друг като съпруг и съпруга през първата година от брака.

Ето пример за неуспешен отчет на твърдия диск:

md0: активен рейд1 sdb2 [1] (F) sda2 [0]

242149184 блокове супер 1.0 [2/1] [U_]

растерно изображение: 2/2 страници [8KB], 65536KB парче

Както можете да видите, тук една буква U в квадратни скоби изчезна и се появи буквата F (неуспешно). Твърдият диск в софтуерния масив е мъртъв.

Конфигуриране на изпращането на отчет за състоянието на софтуерно нападение

Нека започнем с изпращане на тестов отчет на основния потребител:

# cat/proc/mdstat | поща -s “ServerName MD отчети” корен

След тази команда на пощата на администратора трябва да дойде отчет за изправността на масива.

За да изпращате такъв отчет всеки ден, ще трябва да направите следното:

0 8 * * * (cat/proc/mdstat) | поща -s “ServerName MD report” корен

cat/proc/mdstat | изпраща поща “Име_Сървър MD доклад” [email protected]

(/ usr/sbin/smartctl -a/dev/sda;/usr/sbin/smartctl -a/dev/sdb;/usr/sbin/smartctl -a/dev/sdc;/usr/sbin/smartctl -a/dev/sdd;) | поща “Сървър_Сървър SMART отчет” [email protected]

# chmod + x /etc/sysconfig/mdcheck.sh

0 8 * * * /etc/sysconfig/mdcheck.sh

Друг начин за изпращане на отчет за софтуерно нападение: