У нас есть 6 серверов Supermicro с одинаковой (или очень похожей спецификацией). За последние две недели один из них случайно потерял диск NVMe из-за:
[ 66.856719] nvme 0000:03:00.0: I/O 0 QID 0 timeout, disable controller
[ 66.957911] nvme 0000:03:00.0: Identify Controller failed (-4)
[ 66.957961] nvme 0000:03:00.0: Removing after probe failure status: -5
Мы пробовали:
По сути, это совершенно новый сервер, за исключением того, что мы не переустанавливали его - почему? Потому что я хочу понять проблему, и если переустановка исправит ее, мы никогда не узнаем, почему это происходит на этом компьютере, а не на другом нашем 5.
Если диск заменен в другой отсек, он работает нормально, и любой диск, замененный в этот отсек, в конечном итоге выходит из строя / выходит из строя.
CentOS 7 (установлены последние патчи)
lspci -tvv
вывод: https://gist.github.com/sammcj/8839c536b2cf6d4def8d2572eb1b4e8aУ меня был аналогичный сбой с дисками Intel P4600 (отличными от вашего), решение Intel для нашего случая было редкой прошивкой с элементами действий по замене определенных дисков и обновлению прошивки до последней версии на всех оставшихся дисках. YMMV.
Ошибка, которую вы получаете, означает, что диск находится на уровне PCIe и даже может быть подключен к некоторому базовому уровню NVMe, но он не может завершить полную инициализацию из-за внутреннего утверждения на диске (опять же, на основе результатов FA для наших дисков , у вас может быть иначе).
Позвоните в службу поддержки Supermicro или воспользуйтесь совершенно другим сервером.
Вы устранили больше неисправностей, чем большинство из них, и определенно выполнили все разумные шаги, которые были под вашим контролем.
Оборудование Supermicro относительно дешево и не обеспечивает такой же уровень полировки, как системы Dell или HP. Так что возьмите это у кого-то, кто видел крупномасштабные развертывания Supermicro ... У вас может просто не получиться.