В нашем центре обработки данных возникла странная проблема. Наш сервер резервного копирования (на котором запущен EMC Networker) теряет сетевое соединение каждый альтернативный день около 3:00 утра (расписание резервного копирования начинается в полночь). После 2 часов простоя подключение к сети автоматически восстанавливается и возвращается в нормальное состояние.
Что мы наблюдали:
Маловероятно, что это проблема сети, поскольку он напрямую подключен к коммутатору серверной фермы (соединение уровня 2 без каких-либо промежуточных переходов). Кроме того, сервер подключен к двум разным коммутаторам для балансировки нагрузки с помощью Broadcomm Teaming.
a) Если это была проблема, связанная с коммутатором, маловероятно, что оба сетевых порта выйдут из строя, поскольку они подключены к другому коммутатору.
б) Возможность проблем с Vlan также исключена, поскольку другие устройства в том же Vlan подходят.
c) Статус интерфейса коммутатора всегда активен. Но во время простоя происходит много сбоев пакетов - это можно объяснить высокой загрузкой интерфейса резервного сервера (около 100%).
г) Связь восстанавливается без каких-либо изменений в сети.
Следующим подозреваемым является использование ресурсов на сервере Windows. И ЦП, и память редко превышают 80%, но загрузка сетевой карты тревожно высока (около 100%).
Не совсем уверен, как это расследовать?
Сетевую карту не пробовали менять?
Подозреваю проблемы с драйверами или несоответствие дуплекса. Попробуйте обновить драйверы и убедитесь, что дуплекс на обоих концах одинаков. Также проверьте статистику Ethernet с коммутатора (если у вас есть ошибки, коллизии и т. Д.).
Что означает теряет подключение к сети? Он недоступен, но интерфейс работает? Он доступен, но при этом много пакетов потеряно?
Как вы думаете, что он теряет подключение к сети? Что вы конкретно имеете в виду? Есть ли у вас что-то, отслеживающее это, что говорит вам, что до него нельзя добраться? Есть ли что-нибудь в журналах событий, если да что?
Если загрузка сети высока, то есть до точки, когда она полностью загружена, вы можете увидеть, что соединение, похоже, разорвано. Однако его сложно сказать, основываясь на вашем описании. Я предполагаю, что ваша работа по резервному копированию - это прокачка трубы. У вас есть резервное копирование, которое выполняется через день :)
Это длинный снимок, но, может быть, другое устройство в вашей сети имеет такой же IP-адрес? Это определенно вызовет проблемы с трафиком.
Что это за переключатель?
Испытывают ли другие устройства на том же коммутаторе какие-либо проблемы со связью при возникновении этой конкретной проблемы? Хотя это редкость и маловероятно, вы можете исчерпать ограниченные ресурсы на этом переключателе и в некотором смысле сами себя DOS.
Кроме того, если у вас есть механизмы, предотвращающие использование DOS, они могут заблокировать ваш проблемный сервер до тех пор, пока шаблоны использования не вернутся в нормальное состояние.