в последнее время мы покупаем несколько серверов dell, все они из пары Rxxx серии R410 и R710
ОС, которую мы использовали на этих серверах: CentOS 5.4.
мы получаем очень странные сообщения об ошибках, и мы пару раз теряли подключение к сети (для исправления потребовался перезапуск сетевого интерфейса)
сообщения, которые мы получаем:
Сообщение от syslogd @ в среду, 18 ноября, 12:07:08 2009 ...
имя сервера: ядро: Угу. НМИ получил по неизвестной причине 20.
Сообщение от syslogd @ в среду, 18 ноября, 12:07:08 2009 ...
servername kernel: у вас включен странный режим энергосбережения?
Сообщение от syslogd @ в среду, 18 ноября, 12:07:08 2009 ...
имя сервера: ядро: ошеломлен и сбит с толку, но пытается продолжить
мы никогда не видели эти сообщения в предыдущих сериях серверов dell poweredge
Кто-нибудь здесь использует CentOS 5.4 на серии Rxxx? с ним такое тоже случилось?
может у вас есть предложение, как этого не допустить
Обновить:
Спасибо за информацию
ну, я уже связался с dell, они даже поменяли материнскую плату на двух наших серверах
тот факт, что я видел эти странные сообщения ОС более чем на одном сервере (один R410 и другой R710), заставляет меня думать, что, возможно, существует проблема конфликта между ОС и сервером
просто не имеет смысла, что это произойдет более чем на 1 сервере, и даже после замены материнской платы
dell говорят, что они не поддерживают CentOS, я сделал им диагностику DSET и отправил им, они ничего там не увидели.
все прошивки в актуальном состоянии.
решение было: параметры эха bnx2 disable_msi = 1 >> /etc/modprobe.conf /etc/init.d/network restart
Я не знаю, решила ли Dell это в последних обновлениях прошивки. но я добавляю эти параметры на любые серверы RXXX, на которых работает CentOS
Посмотри на http://kbase.redhat.com/faq/docs/DOC-16294 для возможного решения.
Решение зависания на RHEL5.3 с ядром Xen и драйвером bnx2 дается как редактирование /etc/modprobe.conf путем добавления строки
параметры bnx2 "disable_msi = 1"
Это определенно проблема, связанная с оборудованием. За исключением проверки того, что BIOS и прошивка bmc на сервере обновлены, я бы обратился в службу поддержки Dell и открыл дело.
Они, вероятно, скажут, что CentOS не является поддерживаемой ОС, но они поддерживают RHEL5, если она была приобретена как OEM, и если вы можете убедить их, что сообщения ядра связаны с оборудованием, дело будет передано в службу поддержки программного обеспечения.
Чтобы ускорить процесс, попросите их предоставить им диагностические инструменты для RHEL, запустите их и отправьте собранные отчеты.
Установили ли вы все соответствующие специальные инструменты Dell для этой комбинации компьютера и ОС? Я думаю, что это проблема IPMI, когда ваша машина сообщает ОС что-то, с чем она не знает, что делать без установленных правильных драйверов / инструментов.
Также попробуйте включить или отключить HPET в настройках BIOS и / или в grub.conf.
Спасибо за информацию
ну, я уже связался с dell, они даже поменяли материнскую плату на двух наших серверах
тот факт, что я видел эти странные сообщения ОС более чем на одном сервере (один R410 и другой R710), заставляет меня думать, что, возможно, существует проблема конфликта между ОС и сервером
просто не имеет смысла, что это произойдет более чем на 1 сервере, и даже после замены материнской платы
dell говорят, что они не поддерживают CentOS, я сделал им диагностику DSET и отправил им, они ничего там не увидели.
все прошивки в актуальном состоянии.
может быть другая информация об этом? больше идей о том, что я должен попытаться решить эту проблему?
Спасибо
http://www.google.com/search?q=kernel:+Uhhuh.+NMI+received+for+unknown+reason+20.
попробуй первый результат
Я только что прошел через ад, пытаясь понять это. После замены одного R410 под управлением Centos 5.4 на другой возникла точно такая же проблема. Характеристики:
Простая остановка и запуск сетевого адаптера (ifdown / ifup) приведет к его сбросу в случае зависания, но для возобновления работы без блокировки соединений и сброса пакетов требуется перезапуск компьютера.
Может ли кто-нибудь подтвердить, что опция флага bnx2 "disable_msi = 1" 'решает эту проблему? Я не хочу возвращать любую из этих машин без каких-либо гарантий.