Привет, обитатели сбоя сервера
У меня раздражающая проблема с локальной сетью из 100 компьютеров, 2 серверов домена Windows и 12 телефонов VoIP. С момента их установки около года назад, каждую неделю или около того мы замечаем, что телефон VoIP перезагружается - иногда во время разговора. Одновременно с этим часто наблюдаются признаки временной потери соединения на компьютерах: зависание проводника при доступе к сетевым ресурсам, ошибки в нашем программном обеспечении для администрирования из-за потери соединения с сервером базы данных.
Я проводил мониторинг Wireshark соединения между УАТС VoIP и остальной частью сети. Wireshark улавливает группу повторно переданных TCP-пакетов в то время, когда мы записываем перезагрузки телефона. Журнал Wireshark показывает около 2 кластеров повторных передач в день в диапазоне от 5 до сотен пакетов. Те в каждом кластере в основном находятся между УАТС и некоторым набором телефонов VoIP, но не всегда одним и тем же набором. Часто повторные передачи одновременно выполняются на телефоны, подключенные к одному коммутатору, но иногда повторные передачи происходят вместе на телефоны на противоположных концах сети. Обычно при прохождении TCP-трафика происходят несколько совпадающих повторных передач, например, между клиентскими машинами и файловыми серверами.
Всплески повторных передач и перезапусков телефона плохо коррелируют с тем, когда сеть сильно загружена. Кажется, что они происходят немного чаще днем, но чаще всего вечером, когда движение должно снижаться. Довольно часто они происходят поздно ночью, когда большинство компьютеров выключено и трафик должен быть минимальным.
Есть ли у вас идеи, которые могут помочь диагностировать причину подобных проблем? Одно я еще не пробовал, но должен был обновить прошивку всех коммутаторов.
Повторные передачи TCP обычно происходят из-за перегрузки сети. Ищите большое количество широковещательных пакетов в момент возникновения проблемы. Если процент широковещательного трафика в вашем захвате превышает примерно 3% от общего захваченного трафика, то у вас определенно есть перегрузка. Ищите широковещательные сообщения как физического уровня (ARP), так и сетевого уровня (разрешение имен) в сети. Если вы обнаружите большой объем широковещательного трафика, вы можете отследить его до источника по данным захвата.
Для меня это звучит как петля связующего дерева или широковещательный шторм, особенно если повторные передачи и проблемы локализованы на одном и том же коммутаторе (который отличается). Когда это произойдет, каковы состояния портов на вашем устройстве L2? Вероятно, плохой коммутатор или плохие приоритеты корневого моста? Интересная проблема.
Сбор статистики трафика для ваших коммутаторов может показать, что у вас есть периоды, когда вы работаете на предельной или близкой к ней мощности. Это может привести к повторным попыткам, если ответы не вернутся в течение начального тайм-аута (часто 3 секунды). Это на мгновение увеличивает перегрузку до тех пор, пока не сработают механизмы смягчения перегрузки.
Ищите людей, использующих потоковые мультимедиа, так как они могут быстро увеличить пропускную способность.
Вы можете решить проблему для телефонов с помощью формирования трафика. Это просто переместит проблему на других пользователей.
Вы, вероятно, решили эту проблему, поскольку это было так давно, но по сути вам нужно включить «быстрый порт» на портах, которые имеют конечные точки (телефоны VoIP, рабочие станции, серверы). Телефон может отправлять PDU, поэтому, если этот парень перезагружается, это вызовет сходимость STP, что приведет к сбросу таблицы FDB и всем устройствам пройти через 4/5 шагов STP. Помещая порты с конечной точкой в «быстрый порт», они пропускают ожидание и сразу переходят в режим пересылки.
Надеюсь, ваши телефоны находятся в другой подсети и VLAN, чем другие компьютеры?
Это также может быть неисправный элемент оборудования, например, неисправный выключатель. Коррелируются ли повторные передачи с телефонами / компьютерами на одном конкретном коммутаторе или части сети?
Просто чтобы немного расширить свой ответ. Не все переключатели одинаковы, даже если у них одинаковые характеристики. Некоторые из них могут справляться с гораздо более высокой нагрузкой, чем другие, потому что у них внутри более быстрые процессоры. Возможно, ваши переключатели не совсем на высоте.
Я бы начал с того, что поставил некоторые из ваших самых проблемных телефонов VOIP на их собственный физический коммутатор и посмотрел, продолжаются ли сбросы на них. Если проблема исчезнет, вы скоро ее решите.