Назад | Перейти на главную страницу

Проблема с хранилищем - недопустимый счетчик DWORD - как устранить неполадки

Надеюсь, что кто-то более знающий сможет указать мне правильное направление, пожалуйста!

Имея проблемы с сервером, я считаю, что это может быть связано с контроллером RAID \ объединительной платой \ кабелями, но ищу совета.

Вот подробности -

Сервер - Хранилище Dell Poweredge R410 - RAID-контроллер массива RAID 1 250 ГБ - ОС Dell SAS IR / 6 (LSI Logic SAS1068) - сервер Ubuntu 14.04 (x64)

Краткое описание проблемы -

Недавно на сервере началась паника ядра, требующая перезагрузки для восстановления службы. Иногда в выводе TTY регистрируется сообщение «отклонение ввода-вывода для автономного устройства». Я считаю, что базовое хранилище периодически отключается, что иногда вызывает панику ядра ОС.

RAID-массив исправен и синхронизирован -

ioc0 vol_id 0 type IM, 2 phy, 232 GB, state OPTIMAL, flags ENABLED
ioc0 phy 1 scsi_id 1 ATA      WDC WD2500AAJS-7 3E02, 232 GB, state ONLINE, flags NONE
ioc0 phy 0 scsi_id 8 ATA      WDC WD2500JS-75N 2E04, 232 GB, state ONLINE, flags NONE

При просмотре диагностики SAS я иногда вижу, что счетчик INVALID DWORD увеличивается.

Adapter Phy 0:  Link Up
  Invalid DWord Count                                       1,962
  Running Disparity Error Count                             1,772
  Loss of DWord Synch Count                                     0
  Phy Reset Problem Count                                       2

Adapter Phy 1:  Link Up
  Invalid DWord Count                                       1,402
  Running Disparity Error Count                             1,342
  Loss of DWord Synch Count                                     0
  Phy Reset Problem Count                                       0

Я сбросил эту статистику .. после того, как я впервые загрузил сервер после сброса счетчика, «Адаптер Phy 1» отобразил следующее -

Adapter Phy 1:  Link Up
  Invalid DWord Count                                       1,402
  Running Disparity Error Count                             1,342

Адаптер Phy 0 показал 0 для обоих отсчетов.

Сервер работает 4 дня. Проверяя счетчики сегодня утром, я вижу, что счетчики адаптера Phy 1: стабильны, но неверный счетчик DWORD для адаптера Phy 0 увеличился до -

Adapter Phy 0:  Link Up
  Invalid DWord Count                                       1,962
  Running Disparity Error Count                             1,772
  Phy Reset Problem Count                                       2

Кроме того, количество проблем сброса PHY увеличилось до 2, но я не полностью осознаю последствия этого.

На данный момент сервер не выказывает никаких признаков ненадлежащего поведения, но, судя по недавнему опыту, это лишь вопрос времени, когда ядро ​​снова паникует.

Может ли неверный счетчик DWORD и сброс PHY указывать на проблему с кабелем \ объединительной платой (поскольку RAID-контроллер уже заменен) или есть что-то еще, что я должен здесь принять во внимание?

Ура