Назад | Перейти на главную страницу

Выпадение устройства nvme - I / O 0 QID 0 timeout, контроллер отключен

У нас есть 6 серверов Supermicro с одинаковой (или очень похожей спецификацией). За последние две недели один из них случайно потерял диск NVMe из-за:

[ 66.856719] nvme 0000:03:00.0: I/O 0 QID 0 timeout, disable controller [ 66.957911] nvme 0000:03:00.0: Identify Controller failed (-4) [ 66.957961] nvme 0000:03:00.0: Removing after probe failure status: -5

Мы пробовали:

По сути, это совершенно новый сервер, за исключением того, что мы не переустанавливали его - почему? Потому что я хочу понять проблему, и если переустановка исправит ее, мы никогда не узнаем, почему это происходит на этом компьютере, а не на другом нашем 5.

У меня был аналогичный сбой с дисками Intel P4600 (отличными от вашего), решение Intel для нашего случая было редкой прошивкой с элементами действий по замене определенных дисков и обновлению прошивки до последней версии на всех оставшихся дисках. YMMV.

Ошибка, которую вы получаете, означает, что диск находится на уровне PCIe и даже может быть подключен к некоторому базовому уровню NVMe, но он не может завершить полную инициализацию из-за внутреннего утверждения на диске (опять же, на основе результатов FA для наших дисков , у вас может быть иначе).

Позвоните в службу поддержки Supermicro или воспользуйтесь совершенно другим сервером.

Вы устранили больше неисправностей, чем большинство из них, и определенно выполнили все разумные шаги, которые были под вашим контролем.

Оборудование Supermicro относительно дешево и не обеспечивает такой же уровень полировки, как системы Dell или HP. Так что возьмите это у кого-то, кто видел крупномасштабные развертывания Supermicro ... У вас может просто не получиться.