У меня есть Dell PowerEdge 2850 под управлением Windows Server 2003. Это основной файловый сервер для одного из моих клиентов. У меня есть еще один сервер под управлением Windows Server 2003, который действует как главный медиа-сервер для Symantec Backup Exec 12.
Я недавно обновился с Backup Exec 11d до 12. Это обновление было необходимо, потому что мы только что перешли с Exchange 2003 на Exchange 2007. После обновления мне пришлось принудительно установить новую версию 12 Backup Exec Remote Agents на каждый из серверов, на которых я работаю. резервное копирование (всего около 6). 5 моих серверов работают нормально, добросовестно выполняя резервное копирование каждую ночь. Мой файловый сервер регулярно дает сбой.
Наблюдения:
Предыстория:
Этот сервер начал давать сбой во время ночного резервного копирования около месяца назад. Я пробовал все, что мог придумать, чтобы устранить проблему, и в конце концов мне пришлось отказаться, потому что я не мог продолжать приходить в офис в 4 часа утра, чтобы попытаться вернуть сервер в оперативный режим. Однажды в пятницу мне повезло, и сервер оставался работоспособным для полного резервного копирования. Я воспользовался этой возможностью, чтобы восстановить полную резервную копию на временном сервере, который я настроил, и переключил всех своих пользователей на временный. Затем я перезагрузил больной файловый сервер.
Я держал всех своих пользователей на временном файловом сервере около 3 недель. Я установил тот же удаленный агент Backup Exec и клиент Trend Micro A / V на временный сервер, который я использовал на обычном файловом сервере. За это время у меня не было абсолютно никаких проблем с резервным копированием временного сервера.
Я тщательно протестировал перезагруженный файловый сервер. Я перезагружал сервер один раз в час каждый день в течение 3 недель, пытаясь заставить его выйти из строя. Этого никогда не было. Я был уверен, что перезагрузка - это ответ на мои проблемы. Я переместил все данные с временного сервера обратно на обычный сервер. Я получил из него 3 ночные резервные копии, прежде чем он снова заблокировался и начал знакомое поведение сбоя при чистой загрузке.
В эти выходные я решил следить за файловым сервером на протяжении всего задания резервного копирования. Я подключился по протоколу RDP к файловому серверу, а также к серверу, на котором запущен Backup Exec. На файловом сервере я открыл диспетчер задач, чтобы можно было просматривать процессы и наблюдать за использованием процессора и памяти. Все работало без сбоев для резервной копии объемом около 60 ГБ. Затем я заметил, что счетчик байтов задания резервного копирования в Backup Exec перестал увеличиваться. Я оглянулся на свой сеанс RDP на файловом сервере и все еще получал обновления в реальном времени об использовании ЦП и памяти - оба почти 0%, что необычно. Резервные копии обычно используют около 40% на время выполнения задания резервного копирования.
Позвольте мне повторить этот момент: Экран обновлялся, и я получал обновления диспетчера задач в реальном времени. - пока я не нажал кнопку «Пуск». Экран потемнел, и сервер завис. По правде говоря, я думаю, что сервер уже заблокирован, просто видеокарта еще не разобралась.
Я вернулся к своей хитрости: ехал в офис и снова и снова жестко перезагружал сервер, когда он зависает на заставке Windows. Я делал это в течение 2 часов без успешной загрузки. Я начал паниковать, потому что у меня не было приличной резервной копии, которую можно было бы использовать, чтобы вернуть все на рабочий временный файловый сервер.
Как только я исчерпал все, что знал, я глубоко вздохнул, загрузился с компакт-диска Windows Server 2003 и выполнил ремонтную установку Windows. Сервер вернулся в норму, все мои данные остались нетронутыми. Теперь я могу перезагрузить сервер по своему желанию, и он вернется к нормальной работе. Проблема в том, что я боюсь, что как только я снова попытаюсь создать резервную копию этих данных, я вернусь к исходной точке.
Итак, позвольте мне подвести итог:
Вот что я сделал для устранения неполадок на этом сервере:
Помогите подтвердить или опровергнуть следующие предположения:
Любая помощь приветствуется. Ирония почти невыносима. Резервное копирование моих данных - вот что ставит под угрозу.
Опубликовано в ноябре 2011 г. - Попробуйте следующее:
1) Щелкните правой кнопкой мыши файл C: \ program files \ symantec \ SYMEVENT.SYS, выберите «Свойства»> «Версия» (вкладка) и укажите информацию о версии.
2) Загрузите установщик / средство обновления SymEvent: ftp://ftp.symantec.com/public/english_us_canada/symevnt/Sevinst.exe
3) Обновите SymEvent в соответствии со следующей статьей: http://www.symantec.com/business/support/index?page=content&id=TECH98521
Отрывок:
Чтобы обновить файлы Symevent в Windows 2003 / XP / 2000 / NT (включая серверные версии):
A. Загрузите Sevinst.exe с FTP-сайта Symantec. Сохраните файл в папку на жестком диске.
Б. Откройте командную строку и перейдите в папку, в которую вы загрузили файл Sevinst.exe.
C. В зависимости от версии программы выполните одно из следующих действий:
На компьютерах с Symantec AntiVirus 9.x или позжевведите следующую команду:
sevinst.exe / журнал SAVCE
На компьютерах с Symantec AntiVirus 8.x или ранеевведите следующую команду:
sevinst.exe / журнал NAVNT
D. Перезагрузите компьютер
Зависание на заставке Windows заставляет меня с большим подозрением относиться к прошивке или драйверам вашего RAID-контроллера. Это Dell PERC? У вас есть текущие прошивки и драйверы?
Есть ли что-нибудь особенное в последних нескольких файлах и каталогах, для которых выполняется успешное резервное копирование (т.е. что-то нехарактерное для файлов до этого момента в резервной копии)?
Вы можете включить ведение журнала отладки в удаленном агенте Backup Exec на файловом сервере, однако, если файловая система или драйвер диска падают и вылетает, вы, вероятно, не получите записанный журнал отладки. Остановите службу удаленного агента и запустите ее с параметром «-debug», указанным в текстовом поле «Параметры запуска» в свойствах службы (при условии, что вы используете оснастку MMC «Службы» для запуска / остановки) . Если вы предпочитаете, чтобы параметр «-debug» был постоянным, добавьте его к значению ImagePath в «HKEY_LOCAL_MACHINE \ SYSTEM \ CurrentControlSet \ Services \ BackupExecAgentAccelerator».
Я бы заподозрил проблему с драйверами. Просто аналогичный опыт. Устаревшее приложение использует модем ISDN. Я переместил его на новый компьютер и загрузил последние версии драйверов модема.
ISDN-соединение продолжало обрываться, и я подумал, что это модем / линия ... но после всех поисков я заменил самые новые драйверы на 6 (!) Лет старше, и с тех пор он работает без проблем. Так что последние версии драйверов не всегда самые лучшие - не исправляйте их, если они не сломаны.
Удачи!
Единственное, что приходит в голову, о чем вы не упомянули о тестировании, - это уровень ОЗУ и нагрузки на систему.
ОЗУ должно быть легко, но я не уверен, есть ли что-нибудь в резервном копировании, которое могло бы вызвать использование плохой области, которая не будет запускаться при обычном использовании - это просто не подходит.
Другое дело - уровни нагрузки на оборудование. При резервном копировании будет перемещаться много информации как с диска, так и через сетевую карту.
У вас уже есть одно предложение по проверке RAID-контроллера; Я бы добавил к этому проверку, выполняя несколько передач большого объема, пытаясь имитировать загрузку резервной копии. Кроме того, умирает ли он в начале резервного копирования или после некоторого периода постоянной пропускной способности?
Для загрузки сетевой карты я бы попробовал несколько вещей - другую сетевую карту, понизив ее до 100 Мбит, пропустив через нее большие объемы данных (опять же, чтобы имитировать загрузку резервного копирования).
Самая большая проблема с тестированием может заключаться в том, чтобы тестировать их независимо. Я бы начал с сетевых адаптеров как с самого простого элемента для тестирования. Если вы можете добавить один или несколько дополнительных дисков в систему независимо от RAID-контроллера, это может дать вам хороший способ определить, является ли сам RAID-контроллер источником проблемы - скопируйте все на диски без RAID и посмотрите, не вы можете сохранить их чисто.
Для продолжающихся / повторяющихся зависаний после первого - решает ли проблему полное отключение питания от системы? Помните, что выключенный сервер не выключен полностью - в частности, сетевой интерфейс может оставаться активным для пробуждения по локальной сети. Если какое-то внутреннее состояние оборудования неверно, просто перезапуск может не очистить его.
У меня была аналогичная проблема с Backup Exec (хотя и гораздо более старой версией 10). Я установил последнее обновление, и мой сервер произвольно запускал BSOD сразу или вскоре после запланированного резервного копирования. Я так и не определил точную причину проблемы, но, похоже, все это как-то связано и с TrendMicro, и все вместе это вызвало сбои защиты памяти.
Мое решение состояло в том, чтобы вернуться к предыдущей версии Backup Exec, а также обновить свой TrendMicro (если вы используете officecane, недавно вышел новый крупный выпуск).
Это может быть проблема с открытым файлом, и открытый файл может быть поврежден. Попробуйте сделать резервную копию всего, ЗА ИСКЛЮЧЕНИЕМ каталогов windows (и ниже). Посмотрите, не замораживает ли присоска только резервное копирование данных. Кроме того, если у вас есть место на диске, сделайте резервную копию диска на диск с резервным копированием NT, а затем сделайте резервную копию этого файла на ленту. Сделайте текущий аварийный диск. Также вручную сделайте резервную копию файлов AD.
Если он выполняет резервное копирование данных без зависания, это проблема с открытым системным файлом. Если он все равно взорвется, если вы не запустите Exchange или SQL-сервер, я бы заподозрил драйверы или, возможно, оборудование.