Назад | Перейти на главную страницу

Linux Multipath

У нас есть 3 хоста, которые находятся в кластере Oracle RAC, недавно мы видели, что на всех 3 хостах отсутствует много путей с несколькими путями, и иногда эти хосты перезагружаются автоматически.

текущий сценарий находится на хосте 1, все пути показывают активные и готовые, а остальные 2 узлы не отображаются.

в чем может быть проблема? я должен вручную повторно сканировать luns? повторное сканирование lun'ов нарушает работу какой-либо службы? Это коробка RHEL5, а некоторые - диски ASM.

Любая помощь будет оценена. Ребята из хранилища сказали, что с их стороны все в порядке.

Host1

mpath602 (360060e801606e900000106e900000dd3) dm-114 HITACHI,OPEN-V
[size=50G][features=1 queue_if_no_path][hwhandler=0][rw]
\_ round-robin 0 [prio=1][active]
 \_ 4:0:1:94  sdhh 133:112 [active][ready]
 \_ 3:0:1:94  sdhi 133:128 [active][ready]

host2:

mpath602 (360060e801606e900000106e900000dd3) dm-114 HITACHI,OPEN-V
[size=50G][features=1 queue_if_no_path][hwhandler=0][rw]
\_ round-robin 0 [prio=1][active]
 \_ 3:0:1:94  sdhh 133:112 [failed][faulty]
 \_ 4:0:1:94  sdhi 133:128 [active][ready]

Host3

mpath602 (360060e801606e900000106e900000dd3) dm-114 HITACHI,OPEN-V
[size=50G][features=1 queue_if_no_path][hwhandler=0][rw]
\_ round-robin 0 [prio=1][active]
 \_ 3:0:1:94  sdhh 133:112 [failed][faulty]
 \_ 4:0:1:94  sdhi 133:128 [active][ready]

F - из vmcore хоста 1, который перезагружался сам по себе

sd 4:0:0:17: Unhandled error code
sd 4:0:0:17: SCSI error: return code = 0x00010000
Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK,SUGGEST_OK sd 4:0:0:17: Unhandled error code sd 4:0:0:17: SCSI error: return code = 0x00010000
Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK,SUGGEST_OK sd 4:0:0:17: Unhandled error code sd 4:0:0:17: SCSI error: return code = 0x00010000
Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK,SUGGEST_OK qla2xxx 0000:06:00.0: Mailbox command timeout occured, cmd=0x54 mb[0]=0x54. Issuing ISP abort.
qla2xxx 0000:06:00.0: Performing ISP error recovery - ha= ffff81127ffb44f8.
qla2xxx 0000:06:00.0: LIP reset occured (f7f7).
qla2xxx 0000:06:00.0: LOOP UP detected (4 Gbps).
qla2xxx 0000:06:00.0: scsi(4:1:138): Abort command issued -- 0 13ce28adc 2002.
sd 4:0:1:8: timing out command, waited 60s
device-mapper: multipath: Failing path 133:192.
SysRq : Trigger a crashdump

rhel5 multipath

TL; DR Если вы не хотите, чтобы хранилище было заморожено на несколько секунд на вашем компьютере, просто запустите:

for i in /sys/class/scsi_host/host*; do echo "- - -" > $i/scan; done; for i in /sys/bus/scsi/devices/*:*:*:*/rescan;do echo 1 > $i;done; for i in /sys/class/fc_host/host*/issue_lip;do echo 1 >$i;done;for i in /sys/block/sd*/device/rescan;do echo 1 > $i;done

Если вы хотите знать, что происходит, проверьте сообщения журнала ядра:

RHEL 6 или старше, запустите: sudo less /var/log/messages и dmesg
RHEL 7 или новее, запустите: sudo journalctl -k

В сообщениях ядра найдите отказавшее блочное устройство, например sdhh в твоем случае. Посмотрите, когда и почему это не удалось.

Проверьте, можете ли вы прочитать это sdhh неудачный путь:

sudo dd if=/dev/sdhh bs=4k count=1|hexdump -C

Если у вас есть ошибка ввода-вывода, я бы проверил физический путь, коммутатор FC, контроллеры хранилища. Если у вас нет ошибки ввода-вывода, можно безопасно сканировать шину SCSI, но это заморозит ввод-вывод на несколько секунд.

Обновите пакет multipath до последнего. Обновитесь до последней версии. RHEL5 не поддерживается и не должен использоваться.