Назад | Перейти на главную страницу

Centos и Dell PowerEdge серии Rxxx

в последнее время мы покупаем несколько серверов dell, все они из пары Rxxx серии R410 и R710

ОС, которую мы использовали на этих серверах: CentOS 5.4.

мы получаем очень странные сообщения об ошибках, и мы пару раз теряли подключение к сети (для исправления потребовался перезапуск сетевого интерфейса)

сообщения, которые мы получаем:
Сообщение от syslogd @ в среду, 18 ноября, 12:07:08 2009 ...
имя сервера: ядро: Угу. НМИ получил по неизвестной причине 20.
Сообщение от syslogd @ в среду, 18 ноября, 12:07:08 2009 ...
servername kernel: у вас включен странный режим энергосбережения?
Сообщение от syslogd @ в среду, 18 ноября, 12:07:08 2009 ...
имя сервера: ядро: ошеломлен и сбит с толку, но пытается продолжить

мы никогда не видели эти сообщения в предыдущих сериях серверов dell poweredge

Кто-нибудь здесь использует CentOS 5.4 на серии Rxxx? с ним такое тоже случилось?

может у вас есть предложение, как этого не допустить


Обновить:

Спасибо за информацию

ну, я уже связался с dell, они даже поменяли материнскую плату на двух наших серверах

тот факт, что я видел эти странные сообщения ОС более чем на одном сервере (один R410 и другой R710), заставляет меня думать, что, возможно, существует проблема конфликта между ОС и сервером

просто не имеет смысла, что это произойдет более чем на 1 сервере, и даже после замены материнской платы

dell говорят, что они не поддерживают CentOS, я сделал им диагностику DSET и отправил им, они ничего там не увидели.

все прошивки в актуальном состоянии.

решение было: параметры эха bnx2 disable_msi = 1 >> /etc/modprobe.conf /etc/init.d/network restart

Я не знаю, решила ли Dell это в последних обновлениях прошивки. но я добавляю эти параметры на любые серверы RXXX, на которых работает CentOS

Посмотри на http://kbase.redhat.com/faq/docs/DOC-16294 для возможного решения.

Решение зависания на RHEL5.3 с ядром Xen и драйвером bnx2 дается как редактирование /etc/modprobe.conf путем добавления строки

параметры bnx2 "disable_msi = 1"

Это определенно проблема, связанная с оборудованием. За исключением проверки того, что BIOS и прошивка bmc на сервере обновлены, я бы обратился в службу поддержки Dell и открыл дело.

Они, вероятно, скажут, что CentOS не является поддерживаемой ОС, но они поддерживают RHEL5, если она была приобретена как OEM, и если вы можете убедить их, что сообщения ядра связаны с оборудованием, дело будет передано в службу поддержки программного обеспечения.

Чтобы ускорить процесс, попросите их предоставить им диагностические инструменты для RHEL, запустите их и отправьте собранные отчеты.

Установили ли вы все соответствующие специальные инструменты Dell для этой комбинации компьютера и ОС? Я думаю, что это проблема IPMI, когда ваша машина сообщает ОС что-то, с чем она не знает, что делать без установленных правильных драйверов / инструментов.

Также попробуйте включить или отключить HPET в настройках BIOS и / или в grub.conf.

Спасибо за информацию

ну, я уже связался с dell, они даже поменяли материнскую плату на двух наших серверах

тот факт, что я видел эти странные сообщения ОС более чем на одном сервере (один R410 и другой R710), заставляет меня думать, что, возможно, существует проблема конфликта между ОС и сервером

просто не имеет смысла, что это произойдет более чем на 1 сервере, и даже после замены материнской платы

dell говорят, что они не поддерживают CentOS, я сделал им диагностику DSET и отправил им, они ничего там не увидели.

все прошивки в актуальном состоянии.

может быть другая информация об этом? больше идей о том, что я должен попытаться решить эту проблему?

Спасибо

Я только что прошел через ад, пытаясь понять это. После замены одного R410 под управлением Centos 5.4 на другой возникла точно такая же проблема. Характеристики:

  • по прошествии периода времени от дня до 2 недель попытки установить TCP-соединения со службами (входящий web и ssh) через сетевую карту Broadcom терпят неудачу с возрастающей частотой.
  • как только проблема начинается, сетевая карта отбрасывает пакеты
  • если оставить достаточно долго, NIC может вообще зависнуть
  • Попытки TCP-соединения через lo не вызывают никаких проблем
  • активные соединения через NIC не затрагиваются, только новые попытки соединения

Простая остановка и запуск сетевого адаптера (ifdown / ifup) приведет к его сбросу в случае зависания, но для возобновления работы без блокировки соединений и сброса пакетов требуется перезапуск компьютера.

Может ли кто-нибудь подтвердить, что опция флага bnx2 "disable_msi = 1" 'решает эту проблему? Я не хочу возвращать любую из этих машин без каких-либо гарантий.