Каждые несколько недель один из наших серверов Solaris 10 перестает отвечать. Я могу подключиться по telnet к порту 22 и получить баннер SSH, но я не могу установить к нему SSH-соединение. Это Dell R610, поэтому я вхожу в систему через консоль DRAC, и, хотя я могу нажать Enter и получить новую строку, но всякий раз, когда я пытаюсь запустить команду, такую как 'prstat', консоль зависает, и я не могу использовать Control-C или что-то еще. Я также не могу отправить ему CTRL-ALT-DEL для изящной перезагрузки и в конечном итоге должен выполнить удаленный жесткий цикл включения питания.
Ничего странного не появляется в журналах, и мы попытались настроить crons для захвата и добавления вывода prstat, iostat, vmstat, sar и т. Д. В файл каждую минуту, чтобы попытаться выяснить, что вызывает это, но все, что мы видим, это то, что машина хорошо, а потом вроде все прекратилось.
Мы также строим графики показателей в Cacti и ничего не видим. Как я уже сказал, все нормально, а затем данные просто останавливаются.
Проблема повторилась вчера вечером, и мы обнаружили в «последнем» выводе, что машина, кажется, начинает отключаться за пару часов до того, как перестает отвечать (никто не выключает ее), вот результат:
reboot system boot Вт 23 ноя, 17:24 <- вот где я его перезагрузил. перезагрузить систему, вторник, 23 ноября, 15:01
В DRAC нет аварийных сигналов окружающей среды или шасси.
Я проверил, нет ли кронов и т. Д., Которые могли каким-то образом выключить сервер, на самом деле ничего не вижу. Я хочу включить auditd, но для этого требуется перезагрузка, а это основная производственная система.
Кто-нибудь может дать совет?
Dell R610 Solaris 10 5/09 s10x_u7wos_08 X86
Спасибо,
Шейн
Обнаружено, что если я захожу в BIOS-> Настройки процессора и отключу C-Settings, серверы больше не падают. Они работают уже больше месяца, в то время как другие серверы, на которых не был установлен флаг, все еще зависали.
Первое, что нужно проверить - используете ли вы последние уровни исправлений и обновленную прошивку для своего оборудования? Какое программное обеспечение вы используете на хосте и были ли применены последние исправления? Есть ли у хоста адекватное чистое питание и охлаждение?
Проверяя HCL, похоже, что Dell R610 проверенный на OpenSolaris и Solaris 11 Express, но без упоминания о Solaris 10.
hth.
У меня точно такое же поведение на Dell R410 под управлением Solaris 10 9/10 s10x_u9wos_14a.
Я нашел эту ветку, которая заставила меня подумать, что мне следует использовать драйвер Broadcom вместо Solaris для моей установки. http://opensolaris.org/jive/thread.jspa?messageID=491917 http://forums.oracle.com/forums/thread.jspa?threadID=1924459&tstart=15
Я собираюсь попробовать установить его в эти выходные, но, как вы знаете, время покажет, потому что никаких следов проблемы не будет, пока она не возникнет.
Вывод команды fmdump -e fmdump: / var / fm / fmd / errlog пуст.