Назад | Перейти на главную страницу

Повторяющиеся ошибки в Exchange 2003, ведущие к недоступности и перезагрузке?

После перестройки нашего сервера Exchange 2003 из-за сбоя жесткого диска Exchange становится недоступным по прошествии неизвестного времени. Подавляющее большинство пользователей сейчас используют Outlook 2007 (некоторые еще пользуются 2003).

Мы повысили уровень ведения журнала и теперь заметили эти предупреждения; Я отслеживал их, и похоже, что они происходят каждые 15 минут или около того (не уверен, что временные рамки имеют какое-либо отношение к этому)

Эти предупреждения иногда приводят к ошибкам, и вчера мы дважды перезагружали сервер; около 8:30 и 14:30 (около 6 часов - опять же, не уверен, что время имеет какое-то отношение к этому)

Процесс INETINFO.EXE (PID = 1300). DSAccess необходимо закрыть соединение с контроллером домена AD-server.domain.com из-за ошибки 0x80040951.

Процесс STORE.EXE (PID = 2936). DSAccess необходимо закрыть соединение с контроллером домена AD-server.domain.com из-за ошибки 0x80040952.

Процесс MAD.EXE (PID = 2160). DSAccess необходимо закрыть соединение с контроллером домена AD-server.domain.com из-за ошибки 0x80040952.

каждое из 3 предупреждений повторяется каждые 15 минут или около того.

Ошибки, которые предшествовали перезагрузке биржи, выглядят так:

Привязка LDAP не удалась в каталоге AD-server.domain.com для отличительного имени ''. Каталог возвратил ошибку: [0x51] Сервер не работает. DC = домен, DC = com

Мы не уверены, связаны ли предупреждения с ошибками (и, в конечном счете, с последующей перезагрузкой). По времени, указанному выше, мы думали, что это произойдет снова около 8:30 вечера и 2:30 ночи, но ничего. Никаких ошибок с момента перезагрузки вчера около 14:30.

Я должен отметить, что Exchange находится в DMZ 1 и AD находится в DMZ 3 но межсетевой экран (Sonicwall) полностью открыт между двумя DMZ.

Раньше Exchange находился на собственном сервере, но по рекомендации некоторых специалистов мы переместили его на виртуальную машину. Сервер 2008 является хостом, сервер VMWare 2 для виртуальной машины и Windows 2003, на которой работает 2003 Exchange.

Мы действительно не понимаем, что происходит. Мы перезагрузили брандмауэр, отключили фильтрацию AV / контента, перезагрузили AD и Exchange.

Мы рассматриваем возможность переноса Exchange в ту же DMZ, что и AD. Все, с кем мы говорим, рекомендуют это, но мы пока не можем этого сделать. Самое приятное то, что до тех пор, пока нам не пришлось перестраивать Exchange, мы работали отлично, тот же брандмауэр, та же настройка DMZ, те же версии ОС (за исключением виртуальной машины) в течение 3+ лет. Только после того, как мы потеряли Exchange и пришлось его восстанавливать, у нас возникли эти проблемы.

Любые идеи?

--- примечания добавлены 23.11.11 11:11 EST --- @ Even Anderson

Я не совсем понимал, как выполнить то, что вы меня просили; мы обычно здесь не ищем трафик ...

Затем я вспомнил, что наше Sonicwall NSA имеет встроенные возможности захвата пакетов.

Итак, я ввел сервер обмена и серверы AD, отправил записи на FTP-сервер на моем ПК, и теперь я могу наблюдать за трафиком между обменом и AD. Он отправляет мне файлы .cap, которые я просматриваю с помощью Wireshark.

«Проблема» произошла сегодня утром между 1 и 3 часами ночи, а затем снова сегодня утром около 9 часов утра. Я перезагрузился, когда пришел около 6 утра, на всякий случай, и перезагрузился снова, когда обмен перестал отвечать около 9:30 утра.

При фильтрации по протоколу LDAP я вижу следующие записи:

SASL GSS-API Inegrity - они выглядят как фактические поисковые запросы, и каждый searchRequest имеет searchResEntry

bindRequest и bindResponse - они выглядят 1 к 1 - так что все выглядит нормально.

Я вижу некоторый unbindRequest из Exchange в AD с тем, что кажется без ответа - хотя я не уверен, должен ли он иметь ответ.

Я не вижу ничего с реальной синхронизацией.

Все еще ищу - выполнение захвата не влияет на производительность где-либо, поэтому я надеюсь продолжать запускать его, пока не возникнут ошибки и обмен не перестанет отвечать.

Ошибка 0x80040951 - это ошибка «LDAP_SERVER_DOWN», а 0x80040952 - это «LDAP_LOCAL_ERROR». Оба эти фактора заставляют меня думать, что компьютер с сервером Exchange не может связываться с контроллером домена через LDAP.

Я бы начал с анализа трафика между Exchange и DC. По возможности используйте порт SPAN или другой метод для «тройника» на выделенном компьютере-анализаторе между контроллером домена и Exchange, чтобы долгосрочное отслеживание могло выполняться без проблем с производительностью на любом сервере. Вы можете использовать фильтр захвата, чтобы изолировать трафик для разговоров между сервером Exchange и контроллерами домена. Если у вас есть возможность, используйте два компьютера для обнюхивания и по одному между каждым сервером и устройством межсетевого экрана, изолирующим их.

Не видя, что происходит с реальным сетевым трафиком, мне трудно давать какие-либо дальнейшие рекомендации. Если вы в итоге получите несколько снимков неудачи «в действии», вы можете опубликовать их здесь, и мы посмотрим. Основываясь на том, что я вижу до сих пор, я ожидаю, что вы обнаружите, что компьютер с сервером Exchange постоянно выполняет синхронизацию для порта LDAP на контроллере домена и не получает ответа. Если вам повезло, что вы можете осуществлять захват с обеих «сторон» устройства брандмауэра, я уверен, вы увидите трафик, который не проходит через брандмауэр. У вашей проблемы определенно есть такое чувство ...