Итак, у меня есть сервер, который за последнее время дважды зависал.
Что я хочу сделать, так это поймать любую панику ядра / ошибку ядра, написанную на последовательной консоли. Я могу войти по ssh и запустить VSP, и я запускаю свой сеанс SSH в bash, используя скрипт, поэтому все, что написано на консоли, должно регистрироваться скриптом.
Проблема заключается в истечении времени ожидания iLO и закрытии сеанса SSH.
Быстрый просмотр веб-интерфейса показывает, что существует тайм-аут простоя iLO, но он может быть установлен только на 120 минут и не отключен.
Есть ли способ отключить iLO, закрывающий сеанс SSH, чтобы я мог в течение некоторого времени эффективно регистрировать все, что происходит через виртуальный последовательный порт, и, надеюсь, улавливать то, что когда-либо паника / упс извергается в этих, казалось бы, случайных блокировках.
Вы что-нибудь видите в системных журналах IML? Установлены ли у вас агенты управления для оборудования?
какой конкретный ОС и модель сервера ProLiant вы используете? Если у вас установлены агенты, вы должны получать некоторую информацию, касающуюся зависаний или, возможно, срабатывания сторожевого таймера ASR.
Для ВСП. внесли ли вы необходимые изменения в командная строка ядра и Grub выводить в консоль?
Для МОТ важны модель и версия прошивки. Текущая прошивка ILO2 и ILO3 позволяет Бесконечный таймаут простоя под Access Options
.
Если вы можете использовать PuTTY, возможно, вы сможете предотвратить возникновение тайм-аута ...
Я не уверен, поддерживает ли его реализация SSH ilo, но с использованием клиента openssh и настройки ServerAliveInterval
может помочь. По умолчанию он равен 0. Я использую его для поддержания активности моих ssh-соединений, чтобы предотвратить тайм-ауты таймера nat table. В ~/.ssh/config
ставить:
ServerAliveInterval 60