Назад | Перейти на главную страницу

Выпадение устройства nvme - I / O 0 QID 0 timeout, контроллер отключен

У нас есть 6 серверов Supermicro с одинаковой (или очень похожей спецификацией). За последние две недели один из них случайно потерял диск NVMe из-за:

[ 66.856719] nvme 0000:03:00.0: I/O 0 QID 0 timeout, disable controller [ 66.957911] nvme 0000:03:00.0: Identify Controller failed (-4) [ 66.957961] nvme 0000:03:00.0: Removing after probe failure status: -5

Мы пробовали:

Замена диска
Замена кабелей NVMe
Замена контроллера NVMe (материнской платы)
Замена объединительной платы
Переход с ядра 4.5.0 на 4.4.2 с учетом недавних изменений в подсистеме хранения
Обновление прошивок дисков и материнских плат
Замена материнской платы

По сути, это совершенно новый сервер, за исключением того, что мы не переустанавливали его - почему? Потому что я хочу понять проблему, и если переустановка исправит ее, мы никогда не узнаем, почему это происходит на этом компьютере, а не на другом нашем 5.

Когда привод работает, об ошибках SMART или nvme-cli не сообщается.
Если диск заменен в другой отсек, он работает нормально, и любой диск, замененный в этот отсек, в конечном итоге выходит из строя / выходит из строя.
CentOS 7 (установлены последние патчи)
Ядро 4.5.0
2x Intel DC3600 NVMe (2,5 дюйма FF)
Набор микросхем Intel Corporation C610 / X99
Полный lspci -tvv вывод: https://gist.github.com/sammcj/8839c536b2cf6d4def8d2572eb1b4e8a
Полная конфигурация ядра: https://gist.github.com/sammcj/7d1e79775bf984424b92679d16c015c6

У меня был аналогичный сбой с дисками Intel P4600 (отличными от вашего), решение Intel для нашего случая было редкой прошивкой с элементами действий по замене определенных дисков и обновлению прошивки до последней версии на всех оставшихся дисках. YMMV.

Ошибка, которую вы получаете, означает, что диск находится на уровне PCIe и даже может быть подключен к некоторому базовому уровню NVMe, но он не может завершить полную инициализацию из-за внутреннего утверждения на диске (опять же, на основе результатов FA для наших дисков , у вас может быть иначе).

Позвоните в службу поддержки Supermicro или воспользуйтесь совершенно другим сервером.

Вы устранили больше неисправностей, чем большинство из них, и определенно выполнили все разумные шаги, которые были под вашим контролем.

Оборудование Supermicro относительно дешево и не обеспечивает такой же уровень полировки, как системы Dell или HP. Так что возьмите это у кого-то, кто видел крупномасштабные развертывания Supermicro ... У вас может просто не получиться.