Назад | Перейти на главную страницу

Storage Space Direct: ошибка SMB

Итак, у нас есть это Кластер с 4 узлами Storage Space Direct (S2D), работаю более 1,5 года без каких-либо серьезных проблем. ОС есть Windows Server 2016.

Два дня назад мы заметили много сообщений об ошибках в журнале событий кластера, а задания резервного копирования всех виртуальных машин Hyper-V, размещенных в кластере, завершились ошибкой (выполненной через VEEAM).

Расследование быстро показало, что есть много проблем с подключениями SMB.

Любой из 4 хостов:

Очевидно, что файловый ресурс-свидетель также не работает, и о некоторых проблемах с доменными службами нужно сообщить ...

Мы попытались перезагрузить узлы по отдельности, и после перезагрузки соединения SMB в порядке ... в течение нескольких минут / часов, а затем проблема возникает снова.

Влияние на кластер, наряду с отключением файлового ресурса-свидетеля, заключается в том, что мы не может легко выполнить живую миграцию виртуальных машин между узлами (выполняется случайным образом). Однако быстрая миграция происходит как шарм. Поскольку подключение к SMB невозможно, мы невозможно переместить виртуальную машину в другой кластер или автономный хост.

Мы опасаемся, что кластер выйдет из строя из-за неконтролируемого выхода из строя узла. Несмотря на то, что виртуальная машина стабильна, мы все равно не можем выполнить резервное копирование (мы могли бы выполнить экспорт).

Кто-нибудь из вас слышал об этой проблеме с S2D или ролью отказоустойчивого кластера Microsoft? Это также может быть не связано с самим кластером ...

Что можно сделать, чтобы найти первопричину этой проблемы?

Вот образцы журналов, найденных в роли кластера, и в журналах событий для SMBCLient :

Из консоли кластера:

Ресурс сетевого имени кластера «Имя кластера» обнаружил ошибку при включении сетевого имени на этом узле. Причина сбоя: «Не удалось получить токен входа».

Код ошибки был «1311».

Вы можете снова отключить ресурс сетевого имени и снова подключиться к сети, чтобы повторить попытку.

Событие с ID 30803:

Не удалось установить сетевое соединение.

Ошибка: {Время ожидания устройства} Указанная операция ввода-вывода в% hs не была завершена до истечения периода ожидания.

Имя сервера: server.domain.com

Адрес сервера: x.x.x.x: 445 Тип подключения: Wsk

Указание: это указывает на проблему с базовой сетью или транспортом, например с TCP / IP, а не с SMB. Брандмауэр, блокирующий TCP-порт 445 или TCP-порт 5445 при использовании адаптера iWARP RDMA, также может вызвать эту проблему.

Еще один, ID 30804:

Сетевое соединение было отключено.

Имя сервера: \ server.domain.com Адрес сервера: x.x.x.x: 445 Тип подключения: Wsk

Руководство: это указывает на то, что соединение клиента с сервером было отключено.

Частые, неожиданные отключения при использовании адаптера RDMA через конвергентный Ethernet (RoCE) могут указывать на неправильную конфигурацию сети. RoCE требует, чтобы управление приоритетным потоком (PFC) было настроено для каждого хоста, коммутатора и маршрутизатора в сети RoCE. Неправильная настройка PFC приведет к потере пакетов, частым отключениям и снижению производительности.

Я нашел решение, это было глупо. На хостах было несколько сетевых адаптеров для доступа к разным VLAN. Некоторые из сетевых адаптеров были сопоставлены с виртуальным коммутатором, а некоторые из них были совместно использованы с ОС ('Разрешить операционной системе управления использовать этот сетевой адаптер').

Я заметил, что пакет SMB часто использовал неправильный интерфейс (DMZ), и, конечно, запрос был отклонен.

Команда Powershell, которую я использовал для определения неправильного маршрута, используемого трафиком SMB:

Find-NetRoute -RemoteIPAddress x.x.x.x

(где x.x.x.x - это удаленный ресурс в вашей сети)

Это показало интерфейс DMZ вместо интерфейса LAN. Удаление 'Разрешить операционной системе управления использовать этот сетевой адаптер'на DMZ vSwitch решил проблему для меня.

Я до сих пор не понимаю, как этот кластер так хорошо проработал 1,5 года с такой конфигурацией. Но что ж, теперь она решена, FSW и все остальные операции работают нормально.

Надеюсь, это поможет;)