Назад | Перейти на главную страницу

Сбой связи… перезагрузка для дебилов?

Я работаю в крупной корпорации, где мы используем множество устаревших систем. Обратите внимание на некоторые системы: системы HP-UX 10.20, Windows 2000, VMEBus, системы, разработанные более 30 лет назад, которые не обмениваются данными по протоколам TCP / IP, и другие.

В течение всей рабочей недели мы постоянно сталкиваемся с тем, что эти устаревшие системы теряют связь друг с другом. Обычно перезагрузка системы, чтобы попытаться восстановить связь, является последним подходом. Стало общепринятым убеждение, что перезагрузка системы - это просто «все исправить» для невежественных сотрудников. Мне было интересно, есть ли когда-нибудь законность перезагрузки системы (устаревшей или нет) для восстановления сбойной линии связи?

Я понимаю, что обновление IP-адресов в Windows должно эффективно восстановить сетевое соединение; но существует ли возможность более глубокой проблемы в базовой операционной системе, которая может быть повреждена и потребовать перезагрузки? Неисправный сокет, время ожидания истекает, не закрывается или, может быть, не пытается подключиться повторно?

Мне кажется, что перезагрузка была бы жизнеспособным решением при такой сложной сети несовместимых систем. Но (по крайней мере, на моем рабочем месте), когда система перезагружается, и все волшебным образом снова начинает работать, это всегда «совпадение»; никогда не решение. Мысли?

Да, «перезагрузите и позвоните мне, если это все еще не работает» часто является первой линией устранения неполадок для системных администраторов или сотрудников службы поддержки, у которых нет идей. Я тоже воспользуюсь этим, но сказать кому-то о перезагрузке сервера - это совершенно другое упражнение, чем перезагрузка пользователем своей рабочей станции, в зависимости, конечно, от того, для чего используется сервер.

Я ненавижу давать этот совет, но, говоря прагматично, иногда для настоящих устаревших систем, которые вы не вправе заменять, если перезагрузка помогает решить проблему, тогда лучше просто делать это по мере необходимости и работать над оправданием обновления, чем над без надобности увеличивать время простоя.

Я думаю, что пытаюсь обучить людей, - это сначала выбрать наименее навязчивый путь.

Как вы сказали, перезагрузка должна быть ПОСЛЕДНИМ вариантом.

Таким образом, наименее навязчивым было бы больше похоже: - Повторный запуск службы связи - Повторный запуск службы приложения - Повторный запуск уровня связи приложения (если существует) - И т. Д.

Это относится не только к старым системам, но и при поиске и устранении неисправностей. Однажды одна из этих систем перестанет работать.

Путем переключения между различными частями системы это также может позволить вам найти, что на самом деле является причиной сбоя, а также получить более быстрое исправление, поскольку полная перезагрузка не выполняется.

С отказоустойчивыми кластерами (использую RedHat Cluster) перезагрузка является Это хорошо по нескольким причинам:

Это часть протокола высокой доступности «STONITH» (Shoot The Other Node in The Head), посредством которого неотвечающий хост принудительно отключается / перезагружается. Вам лучше убедиться, что он правильно настроен и будет перезагружен в рабочем состоянии. Когда что-то пойдет не так, вы можете перезагрузить компьютер несколько раз, если проблема не очевидна.
Система оптимизирована для того, чтобы узел выходил из строя, но это не очень хорошо - фактически отстой - полагать, что узел просто плохо себя ведет. Перемещение службы на другой узел занимает несколько секунд. Если текущий узел плохо себя ведет, отключение от него - самый надежный и быстрый способ сделать это, иначе кластер может пытаться делать что-то слишком хорошо и ждать ACK, который никогда не придет.

Ответ - «это зависит от обстоятельств».

Перезагрузка может исправить проблемы или упростить их обнаружение, улучшив ведение журнала или легко обнаруживаемые проблемы. (Хммм ... перезагрузка не должна занимать 10 минут)

Однако использование перезагрузки в качестве стандартного метода устранения неполадок - плохая практика. Кто-то должен понимать, как все отключается, чтобы вы могли отсортировать, изолировать неисправные компоненты и начать устранение неполадок.

Ненавижу это говорить, но может быть полезно взглянуть на что-то вроде ITIL, особенно на управление инцидентами и проблемами. Это может помочь вам или вашему руководству реорганизовать вашу систему поддержки, чтобы она действительно функционировала рационально.

Поскольку ваш вопрос касается нескольких операционных систем, не может быть единственного правильного ответа.

Я могу сказать это о системах Windows 2000: я запустил тысячи из них и могу вспомнить лишь несколько случаев, когда связь не удалась, И система не зависала полностью. Часто это решает простое отключение / повторное включение сетевой карты без связи с внешним миром с последующим обновлением драйвера и / или заменой сетевой карты на что-то менее дрянное.

(Да, я видел это только со старыми ошибочными драйверами и / или сетевыми адаптерами других производителей.)