Я попытался получить дополнительную информацию из журнала ошибок SAS disk, выполнив следующую команду, которая выводит значения и описания страницы журнала протокола SAS (SSP).
# smartctl -d scsi -l sasphy /dev/sg1
Protocol Specific port log page for SAS SSP
relative target port id = 1
generation code = 79
number of phys = 1
phy identifier = 0
attached device type: end device
attached reason: power on
reason: loss of dword synchronization <======================== (?)
negotiated logical link rate: phy enabled; 6 Gbps
attached initiator port: ssp=1 stp=1 smp=1
attached target port: ssp=0 stp=0 smp=0
SAS address = 0x5000...
attached SAS address = 0x5b8...
attached phy identifier = 6
Invalid DWORD count = 0
Running disparity error count = 0
Loss of DWORD synchronization = 24194 <======================== (?)
Phy reset problem = 0
...
relative target port id = 2
generation code = 79
number of phys = 1
phy identifier = 1
attached device type: no device attached
attached reason: unknown
reason: unknown
negotiated logical link rate: phy enabled; 1.5 Gbps
attached initiator port: ssp=0 stp=0 smp=0
attached target port: ssp=0 stp=0 smp=0
attached SAS address = 0x0
attached phy identifier = 0
...
Из вышесказанного я отмечаю, что существует высокая потеря синхронизации DWORD, что, согласно IBM, это ошибка, которая возникает, когда PHY перестает обнаруживать входящий поток DWORD. Я попытался найти дополнительную информацию об этой ошибке, но не нашел ее.
Как потеря синхронизации DWORD влияет на работоспособность диска SAS? Мне нужно об этом беспокоиться? И на каком пороговом уровне я должен его контролировать?
Эта ошибка не влияет на работоспособность самого диска. Если вы переместите диск на другое шасси, у которого нет проблем со связью, с приводом все будет в порядке. Это предполагает, что проблемы со связью не связаны с самим портом накопителя.
Эти ошибки означают, что существует проблема в соединении между накопителем и восходящим портом, если у вас есть кабель, кабель может быть плохим, в противном случае это означает, что один из портов неисправен. Конечно, даже если у вас есть кабель, это может означать, что один из портов неисправен.
Способ диагностировать это - использовать другой диск в том же слоте и посмотреть, исчезнет ли ошибка или нет, если она исчезла, диск неисправен. Если ошибка осталась, исходный диск в порядке, но порт на сервере / шасси неисправен, и сервер / шасси необходимо заменить.
Проблема с потерей синхронизации двойного слова заключается в том, что это означает дополнительные попытки для некоторых отправленных операций ввода-вывода и увеличивает задержку операций ввода-вывода из-за ожидания передачи данных из-за этих повторных передач. В тяжелых случаях могут быть отправлены прерывания задачи и даже сброс целевого объекта как часть восстановления после ошибки, что сделает диск недоступным на многие секунды и может вызвать сбой файловых систем или рейд для сброса диска.