Назад | Перейти на главную страницу

Мониторинг внезапного отказа Raid Drive

Один из дисков в двухдисковом программном массиве RAID-1 на выделенном сервере под управлением CentOS внезапно вышел из строя в эти выходные и полностью отключил сервер. Хотя у меня не было времени полностью просмотреть журналы и мониторинг, похоже, не было никакого предупреждения (хотя я специально не отслеживал рейд). Поскольку я новичок в RAID и у меня есть несколько вопросов о сбое:

  1. Должен ли сбой диска в RAID обычно вывести из строя сервер? Насколько я понимаю, RAID был специально для предотвращения этого.
  2. При просмотре журналов есть ли какой-нибудь журнал или что-то, что я должен искать в качестве причины или предвестника?
  3. Как мне контролировать свой RAID в будущем? Смотрит на /proc/mdstat достаточно?

Обычно сбой диска не приводит к отказу системы. У меня было несколько сбоев диска, и я только что получил электронное письмо о том, что диск вышел из строя, массив помечен как поврежденный, и я должен заменить диск.

Я бы посмотрел в / var / log / messages, потому что именно там обычно размещаются подобные вещи. Если вы хотите получать уведомления заранее, у вас должны быть установлены интеллектуальные инструменты. Они отправят вам письмо по электронной почте, если что-то, вероятно, не удастся.

Я бы посмотрел / proc / mdstat, настроил оповещение по электронной почте и использовал smart для мониторинга дисков. Затем вы также можете настроить еженедельные тесты вождения с помощью smart.