У меня неприятная проблема.
У меня есть сеть хранения 10 ГБ, обслуживающая среду VMWare vSphere 5.1.
Что случается: Раз в неделю или один раз в месяц устройства сети хранения перестают передавать трафик, и все это превращается в шар пламени. Когда это происходит, ни одно из устройств не может пинговать друг друга в сети хранения. Это как если бы коммутатор отключил все порты или перестал работать, но перезагрузка коммутатора ничего не дает. Состояние сети в системах linux и vmware сообщает о состоянии «Работает», но, несмотря на это, перезапуск сетевых интерфейсов также ничего не дает. Мне нужно перезагрузить все задействованные серверы, включая TrueNAS, но исключая Dell Powervault, а затем он возвращается в онлайн, и сеть начинает работать.
Что я наделал: Это продолжалось некоторое время, и за это время я заменил все сетевые адаптеры (были 320, обновлены до 420), заменил коммутатор (был dell PC 8100), заменил кабели и добавил Dell PowerVault MD3600i. TrueNAS действовал как основное хранилище, но теперь эта работа принадлежит PowerVault, а TrueNAS действует как хранилище для резервных копий системы. Никакие журналы не дали никаких намеков на то, что происходит. Коммутатор не имеет конфликтов или ошибок передачи пакетов, о которых можно было бы говорить. Но, несмотря на все это, проблема все равно возникает.
Что мне еще предстоит сделать: Сегодня вечером я собираюсь заменить сетевой адаптер Chelsio T320 на TrueNAS запасным. Я также собираюсь вернуть свой коммутатор Dell PowerConnect 8100 10Gb и отделить сеть TrueNAS от этого коммутатора просто потому, что TrueNAS в настоящее время является единственной константой в этой проблеме, которая не изменилась.
Я что-то упускаю?: Я нахожусь в полном недоумении и хотел рассказать об этой проблеме сообществу и посмотреть, не думаю ли я об этом или есть какие-то идеи, которые помогут определить проблему. Я теряю из-за этого немного сна и волос. Я видел, как «плохой Ник» отключал сеть, но это почти всегда можно легко увидеть, увидев коллизии в статистике портов коммутатора.
Спасибо! Брэд
У меня была аналогичная проблема в сети 1G, которую мы отслеживали до недостаток управления потоком с чипсетами Broadcom. Во время высокого PPS nic будет отправлять на коммутатор кадр PAUSE. В PC 62XX и других коммутаторах на базе Broadcom действие по умолчанию заключается в распространении PAUSE на все порты, отправляющие трафик на порт, который изначально получил кадр PAUSE. В худшем случае это может привести к тому, что коммутатор полностью отключится, и, как минимум, вы увидите, что трафик заблокирован.
мы закончили тем, что отключили управление потоком на всех наших коммутаторах Broadcom с «no flowcontrol», с тех пор мы не наблюдали никаких сетевых или частичных отключений сети из-за высокого PPS.