Назад | Перейти на главную страницу

Проблемы с моим poweredge 2970

Компания, в которой я работаю, только что купила 3 ​​сервера PowerEdge 2970, и все они имеют одну и ту же проблему.

  1. Стоит ли покупать этот сервер или из-за проблем, связанных с ним, он не стоит?
  2. Есть ли проблемы с использованием процессоров AMD (это Opteron)?
  3. Вы, ребята, сможете определить проблему, если я укажу подробности о том, какие ошибки я получаю в журналах событий?

Вот в чем проблема:

1. Включите сервер. Он загружается до заставки красной шляпы.
2. В середине загрузки сервер вылетает со следующими ошибками:

-CPU Machine Chk: processor sensor, transition to non-recoverable was asserted
-PCI Parity Err: critical event sensor, PCI PERR (BUS 0 DEVICE 1 FUNC 0)

Затем я попытался обновить BIOS и BMC, но проблема не исчезла. После этого я попытался обновить ОС (у нее была Red Hat Enterprise 5.1) до Red Hat 5.3. Там тоже было что-то странное. Я загрузил сервер с помощью утилиты сборки и обновления, затем выбрал установку ОС. Я выбрал Red Hat Enterprise 5.3 x86_64. Он запросил у меня носитель x86_64, поэтому я вставил диск, на котором было написано: дополнительный диск 1 из 1 для 64-битных AMD64 и Intel 64. Он сказал неправильный диск. Тогда я использовал диск, на котором было написано: установочный диск 1 из 1 для 64-битного Intel Itanium. Думаю, это диск, который мне нужно было использовать все время.

После этого система смогла загрузиться до экрана входа в командную строку. Я вошел в систему и набрал: startx, чтобы войти в среду графического интерфейса. В этот момент быстро прокручивалось меньше страницы текста, и сервер падал, не показывая ничего, связанного с графическим интерфейсом.

На тот момент у меня было 2 разных ошибки (обратите внимание, что устройства сейчас 4, я проверю, какое это устройство):

-PCI Parity Err: critical event sensor, PCI PERR (BUS 0 DEVICE 4 FUNC 0)
-PCI Sytem Error:critical event sensor, PCI SERR(BUS 0 DEVICE 4 FUNC 0)

Итак, сегодня технический специалист пришел с кучей деталей и в основном перестроил сервер (переходная плата PCI, материнская плата, модули DIMM, карта SAS и что-то еще, что я не могу придумать) на месте, но после этого проблемы были даже хуже. Некоторые из этих ошибок были (заметьте, в тот момент он возвращал некоторые из оригинальных частей, так что все стало беспорядочно):

ECC uncorr Err: датчик памяти, неисправность ECC (DIMM1 DIMM2) была заявлена.
E1231 1.2V HT core power GD
E1911 <3 ОШИБКИ проверить журнал
E1000 отказоустойчивый

Завтра возвращается с блоком питания ...

ОБНОВЛЕНИЕ: похоже, я больше не могу тратить на это время. Звоним продавцам и просим новые серверы.

В последнее время я столкнулся с подобными проблемами с Dell. Техническая поддержка, похоже, не может напрямую связать ошибки с неисправной деталью. Большую часть времени они просто рассылают то, что я называю «Я понятия не имею, что не так». Обычно состоит из системной платы, переходной платы PCI, сменной памяти, а иногда и сменного ЦП и RAID-контроллера.

Одна вещь, которую они часто забывают заменить, - это переходная плата для встроенной карты PERC. И я видел, что это проблема несколько раз.

В любом случае, как я уже говорил ранее, если вы не очень торопитесь с развертыванием этих серверов, я бы связался со службой поддержки клиентов Dell и потребовал, чтобы все три сервера были заменены или возмещены.

Я видел это раньше с плохими картами RAID. Я бы предложил

1) вытащите все карты, которые вы можете, и посмотрите, может ли он загрузиться и, что более важно:

2) ПОЗВОНИТЕ DELL. Их корпоративная техническая поддержка действительно хороша, и, честно говоря, похоже, что у вас аппаратная ошибка.

Что касается ваших вопросов ...
1) Это полностью субъективно
2) Оптероны должны быть такими же надежными, как и детали Intel
3) Сначала вам нужно задать вопрос

Что касается проблемы, которую вы опубликовали, я бы начал с запуска Мемтест на нем, если вы хотите устранить неполадки (это звучит как сообщение об ошибке памяти - хотя шина PCI и номера устройств должны указать вам это конкретно). С другой стороны, я просто настаиваю на том, чтобы представители службы поддержки решили проблему с серверами, которые они вам продали.

Хорошо сначала исключить ОС. Попробуйте установить windows server. В Windows самая широкая поддержка драйверов. Если Windows не может даже установить, то вы точно знаете, что, вероятно, есть какая-то аппаратная неисправность. Если у вас нет его копии, то, насколько мне известно, сервер ubuntu хорошо работает на большинстве устройств.

У нас был сервер, который отказался установить один очень распространенный дистрибутив Linux. Как только я поставил на него сервер ubuntu, он заработал с первого раза. Возможно, в какой-то момент Redhat был там и работал, но обновление ядра не удалось?

Вы также можете попробовать установить в BIOS значения по умолчанию. Также попробуйте повторно инициализировать диски RAID и снова выполнить их резервное копирование.

  1. Позвоните в Dell - если сервер находится на гарантии, они должны легко устранить эти ошибки.
  2. Если у вас нет гарантии, вы все равно можете позвонить в Dell для устранения неполадок и определения деталей, требующих замены.
  3. Эта ошибка обычно указывает на проблему с процессором или МБ. Если у вас более одного процессора, попробуйте запустить систему с одним процессором в 1-м сокете. Если это не удается, попробуйте то же самое с другим процессором. Кроме того, в целом всегда полезно сократить систему до минимальной аппаратной конфигурации, которая позволит ей выполнять POST, то есть удалить все жесткие диски, контроллеры и периферийные устройства, оставить внутри только один процессор и модуль памяти DIMM, а если это не так помогите, у вас наверняка проблема с МБ. Если min2POST config POSTS успешно, начните добавлять части обратно, пока не столкнетесь с ошибкой - это поможет вам точно определить проблемную часть

Я буду вторым тестом другого предложения ОС, но на самом деле на этом этапе упражнения я буду кричать в трубку своему торговому представителю о том, как я хочу заменить эти серверы. сейчас. Вы только что купили их, они совершенно новые, поэтому на них должна распространяться стандартная торговая гарантия, которую Dell по закону о защите прав потребителей обязана иметь, независимо от выбранного вами плана обслуживания / поддержки.

Мне кажется, что вас тут что-то беспокоит, и я думаю, вы с этим достаточно смирились. Пришло время приобрести заведомо хорошее оборудование.