В конце 2013 года наш единственный DHCP-сервер Windows Server 2008R2 начал переставать отвечать примерно раз в неделю. Сам сервер работал, но сервер DHCP не отвечал. Попытки подключиться к интерфейсу управления будут зависать и никогда не истекать, а попытки перезапустить службу из services.msc также зависают. В журнал DHCP не было записано никаких записей, и ни в одном журнале событий не было ничего полезного. Я прочитал несколько статей в Microsoft KB о подобных проблемах и установил хот-патч, который нашел, но ничего из этого не помогло. Спустя несколько недель, когда это происходило, и каждый раз перебрасывая весь сервер для решения этой проблемы, мы перенесли большую часть областей на второй сервер, и, хотя это не решило нашу проблему, это уменьшило проблему. Проблема больше никогда не появлялась на этом сервере, и после переноса большинства областей он по-прежнему обслуживал аренду DHCP в объеме 500+. В то время мы предположили, что, хотя официального ограничения на пропускную способность DHCP-сервера Windows не существует, возможно, мы столкнулись с каким-то состоянием гонки, относящимся к количеству арендованных нами одновременно.
Два дня назад то же самое произошло на втором сервере, и сегодня утром повторилось. Когда это произошло в понедельник, меня не было в офисе, поэтому администратор Linux отключил весь сервер (это единственное, что помогало ранее). Сегодня утром, когда это произошло, я был в сети, поэтому я вскочил. Попробовав все вещи, которые мы пробовали в 2013 году, я использовал диспетчер задач, чтобы принудительно убить svchost, на котором был запущен dhcpserver, а затем смог перезапустить службу с помощью services.msc. Затем в журнал dhcp была внесена запись, указывающая, что служба снова была в сети, однако никогда не начинала раздавать IP-адреса. Интерфейс управления тоже был отзывчивым. После почти часа работы с ним мне пришлось перезагрузить сервер, чтобы люди, приходящие, чтобы начать свой день, не испытывали неудобств.
Мы не добавляли новые области и не изменяли сеть каким-либо существенным образом, чтобы, как я мог видеть, могла бы возникнуть проблема.
На этом этапе я надеюсь найти способ увеличить ведение журнала, которое выполняет DHCP-сервер, хотя мне интересно, не вызывает ли проблема больше, чем служба DHCP-сервера, поскольку я смог принудительно убить его и перезапустить он записал в журнал аудита, но больше ничего не произошло.
На серверах работает Kaspersky AV, и все исключения для DHCP-серверов, которые я обнаружил в сети, присутствуют (в основном за исключением папки dhcp), однако я удалил его сегодня утром, чтобы посмотреть, имеет ли это значение.
Сервер в основном пропатчен, он не на 100% обновлен, но очень близок.
Мысли? Предложения?