Надеюсь, что кто-то более знающий сможет указать мне правильное направление, пожалуйста!
Имея проблемы с сервером, я считаю, что это может быть связано с контроллером RAID \ объединительной платой \ кабелями, но ищу совета.
Вот подробности -
Сервер - Хранилище Dell Poweredge R410 - RAID-контроллер массива RAID 1 250 ГБ - ОС Dell SAS IR / 6 (LSI Logic SAS1068) - сервер Ubuntu 14.04 (x64)
Краткое описание проблемы -
Недавно на сервере началась паника ядра, требующая перезагрузки для восстановления службы. Иногда в выводе TTY регистрируется сообщение «отклонение ввода-вывода для автономного устройства». Я считаю, что базовое хранилище периодически отключается, что иногда вызывает панику ядра ОС.
RAID-массив исправен и синхронизирован -
ioc0 vol_id 0 type IM, 2 phy, 232 GB, state OPTIMAL, flags ENABLED
ioc0 phy 1 scsi_id 1 ATA WDC WD2500AAJS-7 3E02, 232 GB, state ONLINE, flags NONE
ioc0 phy 0 scsi_id 8 ATA WDC WD2500JS-75N 2E04, 232 GB, state ONLINE, flags NONE
При просмотре диагностики SAS я иногда вижу, что счетчик INVALID DWORD увеличивается.
Adapter Phy 0: Link Up
Invalid DWord Count 1,962
Running Disparity Error Count 1,772
Loss of DWord Synch Count 0
Phy Reset Problem Count 2
Adapter Phy 1: Link Up
Invalid DWord Count 1,402
Running Disparity Error Count 1,342
Loss of DWord Synch Count 0
Phy Reset Problem Count 0
Я сбросил эту статистику .. после того, как я впервые загрузил сервер после сброса счетчика, «Адаптер Phy 1» отобразил следующее -
Adapter Phy 1: Link Up
Invalid DWord Count 1,402
Running Disparity Error Count 1,342
Адаптер Phy 0 показал 0 для обоих отсчетов.
Сервер работает 4 дня. Проверяя счетчики сегодня утром, я вижу, что счетчики адаптера Phy 1: стабильны, но неверный счетчик DWORD для адаптера Phy 0 увеличился до -
Adapter Phy 0: Link Up
Invalid DWord Count 1,962
Running Disparity Error Count 1,772
Phy Reset Problem Count 2
Кроме того, количество проблем сброса PHY увеличилось до 2, но я не полностью осознаю последствия этого.
На данный момент сервер не выказывает никаких признаков ненадлежащего поведения, но, судя по недавнему опыту, это лишь вопрос времени, когда ядро снова паникует.
Может ли неверный счетчик DWORD и сброс PHY указывать на проблему с кабелем \ объединительной платой (поскольку RAID-контроллер уже заменен) или есть что-то еще, что я должен здесь принять во внимание?
Ура