Назад | Перейти на главную страницу

Сбой массива HP MSA70 / P800 - 2 диска в каждом слоте, 13/25 дисков «отсутствуют»

У нас есть HP MSA70 с 25 дисками HP SAS 10k DP по 600 ГБ, подключенными к контроллеру HP P800. Диски настроены в RAID 6.

Вчера произошло какое-то неизвестное "событие" и массив отключился. Мы перезагрузили сервер (работающий под управлением CENTOS 6.2), и при запуске контроллер массива сообщил, что 13 дисков «отсутствуют». Когда мы смотрим на объем в управлении массивом, есть две записи для каждого слота для слотов 1–12. Один показывает диск на 600 ГБ, а другой показывает диск на 0 ГБ. После 12 больше нет записей.

Мы связались со службой поддержки HP, которая направила нас в службу поддержки уровня 2, и через много часов отказались. Они сказали, что никогда раньше этого не видели (мое любимое слово от продавца).

Кто-нибудь видел это раньше, и потеряли ли мы все данные?

Спасибо.

Старый, старый, старый, старый...

  • CentOS 6.2 - это старый (6.2, 6 декабря 2011 г. (ядро 2.6.32-220))
  • HP StorageWorks MSA70 - это старый. (Конец жизни - октябрь 2010 г.)
  • HP Smart Array P800 - это старый. (Конец жизни - 2010 г.)

Это наводит на мысль, что прошивка и драйверы тоже старые. Например. нет причин запускать CentOS 6.2 в 2015 году ... И я предполагаю, что не было предпринято никаких усилий, чтобы поддерживать что-либо в актуальном состоянии.

Это также заставляет меня думать, что системы не контролируются. Что говорят журналы системных IML, если исходить из серверного оборудования HP? Вы используете агенты управления HP? В противном случае важные сообщения о состоянии сервера и хранилища могли быть пропущены.

Проверяли ли вы информацию с помощью служебной программы настройки массивов HP (или HP SSA)?

Но, в конце концов, вы, вероятно, испытали сбой порта или сбой расширителя / объединительной платы:

  • Сколько кабелей SAS подключено к корпусу? Если подключен 1 кабель, вероятно, возникла проблема с объединительной платой из-за расширителя SAS в корпусе.
  • Если подключены два кабеля, возможно, неисправен кабель SAS, контроллер MSA70 или порт P800.

Ваши данные, скорее всего, не повреждены, но вам необходимо изолировать проблему и определить, какая из вышеперечисленных проблем является виновником. Заменить кабель SAS намного проще, чем заменить контроллер MSA70 или карту контроллера RAID ... но я думаю, вы можете купить еще один MSA70 за 40 долларов на eBay ...