Назад | Перейти на главную страницу

mpt2sas1: log_info (0x31120303): диски сброшены с RAID

В моем системном журнале я получаю множество:

Mar  1 11:20:07 franklin kernel: [72947.878407] Waking error handler thread
Mar  1 11:20:07 franklin kernel: [72947.878415] Error handler scsi_eh_1 waking up
Mar  1 11:20:07 franklin kernel: [72947.878834] scsi_eh_1: flush finish cmd: ffff8806d5568980
Mar  1 11:20:07 franklin kernel: [72947.878871] scsi_restart_operations: waking up host to restart
Mar  1 11:20:07 franklin kernel: [72947.878888] Error handler scsi_eh_1 sleeping
Mar  1 11:20:07 franklin kernel: [72947.878922] scsi_block_when_processing_errors: rtn: 1
Mar  1 11:20:07 franklin kernel: [72947.883450] Waking error handler thread
Mar  1 11:20:07 franklin kernel: [72947.883462] Error handler scsi_eh_1 waking up
Mar  1 11:20:07 franklin kernel: [72947.883887] scsi_eh_1: flush finish cmd: ffff8806d57c0280
Mar  1 11:20:07 franklin kernel: [72947.883927] scsi_restart_operations: waking up host to restart
Mar  1 11:20:07 franklin kernel: [72947.883965] scsi_block_when_processing_errors: rtn: 1
Mar  1 11:20:07 franklin kernel: [72947.883979] Error handler scsi_eh_1 sleeping
Mar  1 11:20:07 franklin kernel: [72947.889556] Waking error handler thread
Mar  1 11:20:07 franklin kernel: [72947.889569] Error handler scsi_eh_1 waking up
Mar  1 11:20:07 franklin kernel: [72947.890015] scsi_eh_1: flush finish cmd: ffff8806d57c0280
Mar  1 11:20:07 franklin kernel: [72947.890052] scsi_restart_operations: waking up host to restart
Mar  1 11:20:07 franklin kernel: [72947.890070] Error handler scsi_eh_1 sleeping
Mar  1 11:20:07 franklin kernel: [72948.569299] mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Mar  1 11:20:07 franklin kernel: [72948.569312] mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Mar  1 11:20:07 franklin kernel: [72948.569323] mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Mar  1 11:20:07 franklin kernel: [72948.569332] mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Mar  1 11:20:07 franklin kernel: [72948.569342] mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Mar  1 11:20:07 franklin kernel: [72948.569351] mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Mar  1 11:20:07 franklin kernel: [72948.569360] mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Mar  1 11:20:07 franklin kernel: [72948.569370] mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Mar  1 11:20:07 franklin kernel: [72948.569379] mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)

Я включил дополнительное ведение журнала, используя:

scsiloglev -w -e 7 -t 7 -s 7 -ml 0 -mc 0 -ll 7 -lc 7 -hl 0 -hc 0 -i 0

Я настроил таймаут SCSI:

parallel echo 300 '>' {} ::: /sys/block/sd*[a-z]/device/timeout

И установите TLER на 7 секунд:

parallel smartctl -l scterc,70,70 {} ::: /dev/sd*[a-z]

Я заменил контроллер на идентичный (SAS2008), переустановил все кабели, заменил внешние кабели SAS, переустановил все диски. У меня нет проблем с чтением дисков по отдельности с использованием dd, но при использовании в RAID6 диски часто отключаются.

# uname -a
Linux franklin 3.2.0-0.bpo.4-amd64 #1 SMP Debian 3.2.35-2~bpo60+1 x86_64 GNU/Linux

Что еще мне следует попробовать перед публикацией в LKML?

Эти сообщения журнала mpt2sas с этим log_info обычно указывают на что-то плохое на сетевом пути SAS. То есть плохой кабель или плохой разъем. Если у вас есть разные кабели или разные кейсы для тестирования, или даже альтернативные диски, это будет хорошей идеей. Иногда я видел эти ошибки, возникающие из-за плохих дисков. Вы можете попытаться определить это, просмотрев иерархию / sys / class / sas_phy / для файлов invalid_dword и сопоставив затронутый phy компонент. Обратите внимание, что ошибки будут отображаться на принимающей стороне, поэтому затронутой частью будет другая сторона или кабель между ними.