Компания, в которой я работаю, только что купила 3 сервера PowerEdge 2970, и все они имеют одну и ту же проблему.
Вот в чем проблема:
1. Включите сервер. Он загружается до заставки красной шляпы.
2. В середине загрузки сервер вылетает со следующими ошибками:
-CPU Machine Chk: processor sensor, transition to non-recoverable was asserted
-PCI Parity Err: critical event sensor, PCI PERR (BUS 0 DEVICE 1 FUNC 0)
Затем я попытался обновить BIOS и BMC, но проблема не исчезла. После этого я попытался обновить ОС (у нее была Red Hat Enterprise 5.1) до Red Hat 5.3. Там тоже было что-то странное. Я загрузил сервер с помощью утилиты сборки и обновления, затем выбрал установку ОС. Я выбрал Red Hat Enterprise 5.3 x86_64. Он запросил у меня носитель x86_64, поэтому я вставил диск, на котором было написано: дополнительный диск 1 из 1 для 64-битных AMD64 и Intel 64. Он сказал неправильный диск. Тогда я использовал диск, на котором было написано: установочный диск 1 из 1 для 64-битного Intel Itanium. Думаю, это диск, который мне нужно было использовать все время.
После этого система смогла загрузиться до экрана входа в командную строку. Я вошел в систему и набрал: startx, чтобы войти в среду графического интерфейса. В этот момент быстро прокручивалось меньше страницы текста, и сервер падал, не показывая ничего, связанного с графическим интерфейсом.
На тот момент у меня было 2 разных ошибки (обратите внимание, что устройства сейчас 4, я проверю, какое это устройство):
-PCI Parity Err: critical event sensor, PCI PERR (BUS 0 DEVICE 4 FUNC 0)
-PCI Sytem Error:critical event sensor, PCI SERR(BUS 0 DEVICE 4 FUNC 0)
Итак, сегодня технический специалист пришел с кучей деталей и в основном перестроил сервер (переходная плата PCI, материнская плата, модули DIMM, карта SAS и что-то еще, что я не могу придумать) на месте, но после этого проблемы были даже хуже. Некоторые из этих ошибок были (заметьте, в тот момент он возвращал некоторые из оригинальных частей, так что все стало беспорядочно):
ECC uncorr Err: датчик памяти, неисправность ECC (DIMM1 DIMM2) была заявлена.
E1231 1.2V HT core power GD
E1911 <3 ОШИБКИ проверить журнал
E1000 отказоустойчивый
Завтра возвращается с блоком питания ...
ОБНОВЛЕНИЕ: похоже, я больше не могу тратить на это время. Звоним продавцам и просим новые серверы.
В последнее время я столкнулся с подобными проблемами с Dell. Техническая поддержка, похоже, не может напрямую связать ошибки с неисправной деталью. Большую часть времени они просто рассылают то, что я называю «Я понятия не имею, что не так». Обычно состоит из системной платы, переходной платы PCI, сменной памяти, а иногда и сменного ЦП и RAID-контроллера.
Одна вещь, которую они часто забывают заменить, - это переходная плата для встроенной карты PERC. И я видел, что это проблема несколько раз.
В любом случае, как я уже говорил ранее, если вы не очень торопитесь с развертыванием этих серверов, я бы связался со службой поддержки клиентов Dell и потребовал, чтобы все три сервера были заменены или возмещены.
Я видел это раньше с плохими картами RAID. Я бы предложил
1) вытащите все карты, которые вы можете, и посмотрите, может ли он загрузиться и, что более важно:
2) ПОЗВОНИТЕ DELL. Их корпоративная техническая поддержка действительно хороша, и, честно говоря, похоже, что у вас аппаратная ошибка.
Что касается ваших вопросов ...
1) Это полностью субъективно
2) Оптероны должны быть такими же надежными, как и детали Intel
3) Сначала вам нужно задать вопрос
Что касается проблемы, которую вы опубликовали, я бы начал с запуска Мемтест на нем, если вы хотите устранить неполадки (это звучит как сообщение об ошибке памяти - хотя шина PCI и номера устройств должны указать вам это конкретно). С другой стороны, я просто настаиваю на том, чтобы представители службы поддержки решили проблему с серверами, которые они вам продали.
Хорошо сначала исключить ОС. Попробуйте установить windows server. В Windows самая широкая поддержка драйверов. Если Windows не может даже установить, то вы точно знаете, что, вероятно, есть какая-то аппаратная неисправность. Если у вас нет его копии, то, насколько мне известно, сервер ubuntu хорошо работает на большинстве устройств.
У нас был сервер, который отказался установить один очень распространенный дистрибутив Linux. Как только я поставил на него сервер ubuntu, он заработал с первого раза. Возможно, в какой-то момент Redhat был там и работал, но обновление ядра не удалось?
Вы также можете попробовать установить в BIOS значения по умолчанию. Также попробуйте повторно инициализировать диски RAID и снова выполнить их резервное копирование.
Я буду вторым тестом другого предложения ОС, но на самом деле на этом этапе упражнения я буду кричать в трубку своему торговому представителю о том, как я хочу заменить эти серверы. сейчас. Вы только что купили их, они совершенно новые, поэтому на них должна распространяться стандартная торговая гарантия, которую Dell по закону о защите прав потребителей обязана иметь, независимо от выбранного вами плана обслуживания / поддержки.
Мне кажется, что вас тут что-то беспокоит, и я думаю, вы с этим достаточно смирились. Пришло время приобрести заведомо хорошее оборудование.