В моем центральном системном журнале я вижу несколько случаев следующей ошибки из драйвера многопутевого взаимодействия LSI RDAC для Linux.
[RAIDarray.mpp]MY_NICE_STORAGE_ARRAY:1:0:7 Cmnd-failed try alt ctrl 0. vcmnd SN 2436 pdev H1:C0:T0:L7 0x05/0x94/0x01 0x08000002 mpp_status:1
также некоторые примеры
[RAIDarray.mpp]MY_NICE_STORAGE_ARRAY:1:0:10 Illegal Request ASC/ASCQ 0x20/0x0, SKSBs 0x0/0x0/0x0
с последующим
[RAIDarray.mpp]MY_NICE_STORAGE_ARRAY:1:0:10 IO FAILURE. vcmnd SN 887 pdev H2:C0:T0:L10 0x05/0x20/0x00 0x08000002 mpp_status:1
Я получаю его почти со всех своих машин в сети SAN в течение дня, но не со всех сразу - обычно с одной из них за 5 часов. Все коммутаторы FC и все FC HBA не показывают ошибок с сегодняшнего дня, и все пути к любому LUN открыты, когда я их проверяю. Производительность (количество операций ввода-вывода в секунду и последовательный доступ) тоже на высоте. Кто-нибудь видел это?
Хорошо ASC / ASCQ 0x20 / 0x0 переводится на НЕВЕРНЫЙ КОД РАБОТЫ КОМАНДЫ который с таким же успехом мог быть "НЕДОСТАТОЧНОЕ ПОЛЕ В CDB", например этот cmd не поддерживается этой целью. Чего мы не знаем, так это того, какая команда на самом деле вызвала эти последствия. Может помочь включение подробной отладки для этого проприетарного драйвера MP.
Сообщения драйвера multipath, специфичные для поставщика, не очень помогают:
[RAIDarray.mpp] MY_NICE_STORAGE_ARRAY: 1: 0: 7 Cmnd-failed try alt ctrl 0. vcmnd SN 2436 pdev H1: C0: T0: L7 0x05 / 0x94 / 0x01 0x08000002 mpp_status: 1
В 0x02 установлен ли байт состояния в ПРОВЕРИТЬ СОСТОЯНИЕ, что означает, что у нас есть проблема, байт драйвера 0x08 это может быть все, что поставщик хочет iirc. Я не знаю что 0x05 / 0x94 / 0x01 означает, попросите поддержки.
Увидев, что это широкая сеть SAN, и предполагая, что вы используете один и тот же инструмент LSI RDAC MP на всех из них, я бы сосредоточил свои усилия на ошибке LSI MP или проблеме конфигурации SAN. Я также хотел бы изучить любые конфигурации кластеризации и убедиться, что они не были включены случайно.
Поскольку вы используете драйвер LSI mpath, вам действительно стоит начать с их поддержки и взять ее оттуда. Здесь важно сохранять перспективу, так как пока это сообщение не привело к фатальному или пагубному поведению, которое вы до сих пор оценивали. Имейте это в виду, если / когда служба поддержки попросит вас собрать SAN заново;).