У нас есть 3 хоста, которые находятся в кластере Oracle RAC, недавно мы видели, что на всех 3 хостах отсутствует много путей с несколькими путями, и иногда эти хосты перезагружаются автоматически.
текущий сценарий находится на хосте 1, все пути показывают активные и готовые, а остальные 2 узлы не отображаются.
в чем может быть проблема? я должен вручную повторно сканировать luns? повторное сканирование lun'ов нарушает работу какой-либо службы? Это коробка RHEL5, а некоторые - диски ASM.
Любая помощь будет оценена. Ребята из хранилища сказали, что с их стороны все в порядке.
Host1
mpath602 (360060e801606e900000106e900000dd3) dm-114 HITACHI,OPEN-V
[size=50G][features=1 queue_if_no_path][hwhandler=0][rw]
\_ round-robin 0 [prio=1][active]
\_ 4:0:1:94 sdhh 133:112 [active][ready]
\_ 3:0:1:94 sdhi 133:128 [active][ready]
host2:
mpath602 (360060e801606e900000106e900000dd3) dm-114 HITACHI,OPEN-V
[size=50G][features=1 queue_if_no_path][hwhandler=0][rw]
\_ round-robin 0 [prio=1][active]
\_ 3:0:1:94 sdhh 133:112 [failed][faulty]
\_ 4:0:1:94 sdhi 133:128 [active][ready]
Host3
mpath602 (360060e801606e900000106e900000dd3) dm-114 HITACHI,OPEN-V
[size=50G][features=1 queue_if_no_path][hwhandler=0][rw]
\_ round-robin 0 [prio=1][active]
\_ 3:0:1:94 sdhh 133:112 [failed][faulty]
\_ 4:0:1:94 sdhi 133:128 [active][ready]
F - из vmcore хоста 1, который перезагружался сам по себе
sd 4:0:0:17: Unhandled error code
sd 4:0:0:17: SCSI error: return code = 0x00010000
Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK,SUGGEST_OK sd 4:0:0:17: Unhandled error code sd 4:0:0:17: SCSI error: return code = 0x00010000
Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK,SUGGEST_OK sd 4:0:0:17: Unhandled error code sd 4:0:0:17: SCSI error: return code = 0x00010000
Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK,SUGGEST_OK qla2xxx 0000:06:00.0: Mailbox command timeout occured, cmd=0x54 mb[0]=0x54. Issuing ISP abort.
qla2xxx 0000:06:00.0: Performing ISP error recovery - ha= ffff81127ffb44f8.
qla2xxx 0000:06:00.0: LIP reset occured (f7f7).
qla2xxx 0000:06:00.0: LOOP UP detected (4 Gbps).
qla2xxx 0000:06:00.0: scsi(4:1:138): Abort command issued -- 0 13ce28adc 2002.
sd 4:0:1:8: timing out command, waited 60s
device-mapper: multipath: Failing path 133:192.
SysRq : Trigger a crashdump
TL; DR Если вы не хотите, чтобы хранилище было заморожено на несколько секунд на вашем компьютере, просто запустите:
for i in /sys/class/scsi_host/host*; do echo "- - -" > $i/scan; done; for i in /sys/bus/scsi/devices/*:*:*:*/rescan;do echo 1 > $i;done; for i in /sys/class/fc_host/host*/issue_lip;do echo 1 >$i;done;for i in /sys/block/sd*/device/rescan;do echo 1 > $i;done
Если вы хотите знать, что происходит, проверьте сообщения журнала ядра:
sudo less /var/log/messages
и dmesg
sudo journalctl -k
В сообщениях ядра найдите отказавшее блочное устройство, например sdhh
в твоем случае. Посмотрите, когда и почему это не удалось.
Проверьте, можете ли вы прочитать это sdhh
неудачный путь:
sudo dd if=/dev/sdhh bs=4k count=1|hexdump -C
Если у вас есть ошибка ввода-вывода, я бы проверил физический путь, коммутатор FC, контроллеры хранилища. Если у вас нет ошибки ввода-вывода, можно безопасно сканировать шину SCSI, но это заморозит ввод-вывод на несколько секунд.
Обновите пакет multipath до последнего. Обновитесь до последней версии. RHEL5 не поддерживается и не должен использоваться.