Я использую простой массив RAID 1 емкостью 1 ТБ с mdadm на Ubuntu Server 10.10. Я хотел бы просто проверить состояние каждого жесткого диска, чтобы убедиться, что они оба работают, пока не стало слишком поздно. Как я мог легко это сделать?
Обычно вам нужен пакет под названием smartmontools. Он может запрашивать интерфейс SMART на ваших дисках, который есть на большинстве современных дисков.
Существует демон под названием smartd, который может помочь вам в непрерывном мониторинге.
Однако, если ваша система является домашним сервером, часто лучше просто проверить вручную. Вот так:
smartctl -a / dev / sda
Вылетает много данных. Больше всего меня интересуют следующие вещи:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 100 100 051 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 100 100 051 Pre-fail Always - 0
9 Power_On_Hours 0x0032 097 097 000 Old_age Always - 13946
13 Read_Soft_Error_Rate 0x000e 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 075 066 000 Old_age Always - 25
194 Temperature_Celsius 0x0022 075 064 000 Old_age Always - 25
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
199 UDMA_CRC_Error_Count 0x003e 100 100 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x000a 100 100 000 Old_age Always - 0
201 Soft_Read_Error_Rate 0x000a 100 100 000 Old_age Always - 0
Это дает вам возможность субъективно измерить состояние диска. Когда количество ошибок начинает расти, пора искать замену. Также вы можете проверить, не нагреваются ли они.
Вам нужно будет установить smartd и посмотреть на его параметры конфигурации.
Для меня он специально отслеживает мои диски RAID:
/dev/sda -a
/dev/sdb -a
/dev/sdc -a
Это дает мне возможность отслеживать то, что мне нужно.
Вы также можете настроить smartd на выполнение тестов полного привода в указанное время.
Что-то вроде «mdadm --query --detail / dev / md0» должно работать, но когда диск действительно выйдет из строя, root получит электронное письмо (это стандартная конфигурация для Centos, и я думаю, что и для других дистрибутивов). Просто проверьте это уведомление с ошибкой (например: mdadm --manage / dev / md0 --fail / dev / sda1), и вы будете на 100% уверены.