Назад | Перейти на главную страницу

Повторный сбой диска на сервере Dell T610

Я купил подержанный Poweredge T610 и обновил его до двух процессоров Hexcore Xeon X5675 и 96 ГБ ОЗУ. Изначально я использовал 3 зеленых диска WD 2 ТБ в массиве RAID-5 (контроллер Perc6i) и установил сервер Ubuntu на виртуальный диск. Эта установка служила мне хорошо около года, а затем начались проблемы:

Я купил несколько новых дисков для расширения в качестве второго массива - 4 красных диска WD по 3 ТБ. Тем временем я узнал, что хотя бы WD green - не лучший выбор, поэтому я хотел сделать резервную копию некоторых данных о новом VD. Оказывается, Perc6i не любит диски размером> 2 ТБ, но распознал первые 2 из 3 ТБ. Я еще не начал настраивать виртуальный диск с новыми дисками, но 3 недели спустя мой зеленый массив WD начал портиться (сначала только странные глифы в некотором программном обеспечении, затем более серьезные проблемы вплоть до поврежденной последовательности загрузки). В итоге я обратился к профессиональному сервису восстановления данных, который, к счастью, смог мне помочь. Я заменил Perc6i на H700 и настроил RAID6-массив из 4 красных дисков WD емкостью 3 ТБ (которые я тестировал с помощью расширенного теста аппаратной диагностики dell перед настройкой - никаких ошибок ни на одном из них). Установите Ubuntu, все необходимое мне программное обеспечение, x2go и т.д.

Теперь у меня та же проблема, что и раньше - в X2go он начинается с того же программного обеспечения (пакет биоинформатики artemis), выплевывая глифы в командной строке, и, кажется, я возвращаюсь к исходной точке. Все светодиоды состояния на тележках постоянно горят зеленым светом, т.е. Никакого прогнозируемого отказа, по крайней мере, распознаваемого системой.

Я начинаю задаваться вопросом, в чем может быть проблема:

То, что я не думаю, вероятно: -сбой основного диска (снова!), Поскольку диски были новыми, не имели плохих секторов при расширенном тестировании и вообще не имели большого времени включения. -контроллер perc6i был заменен на H700 после первой аварии, и это не должно быть проблемой

Что мне нужно для оценки: -проблемы с объединительной платой / кабелем? (Контроллер H700 поставлялся с кабелями для другого типа сервера, который не подходил для моего случая - просто использовал другой кабель SATA6 для подключения контроллера к объединительной плате) Диски, кстати, находятся в тех же отсеках, что и предыдущие, неисправные, с оригинальным кабелем dell SATA, идущим туда.

-Проблемы с материнской платой? -Проблемы с ЦП или ОЗУ? -Блок питания (пики напряжения ??)

У кого-нибудь раньше была подобная проблема? Любая помощь здесь очень ценится. К сожалению, я отсутствую еще две недели, прежде чем я смогу получить доступ к серверу (как физическому, так и сетевому), о проблеме «сообщила» моя жена, которая работает с сервером в нашей локальной сети (но, к сожалению, не будет может помочь в устранении неполадок).


Да, я выполнил полную процедуру диагностики оборудования Dell без каких-либо проблем. Был обнаружен только один из дисков с дефектными блоками, но мне не удалось восстановить массив raid 5, следовательно, специалист по восстановлению данных. Все остальное оборудование было в порядке

Мне просто интересно, могут ли быть противоречивые проблемы, такие как сбойные контакты где-либо, которые могут пройти тесты в один момент и выйти из строя в любой другой раз. Или, если тесты не охватывают все сценарии ...

По опыту это звучит как проблема с коррупцией барана. Первое, что я хотел бы попробовать, это инструмент диагностики памяти. У Dell они доступны для скачивания.

Если это не обнаружит ошибок, я бы вытащил все оборудование, чтобы уменьшить необходимый минимум, а затем добавить их обратно, пока вы не увидите проблему. Очень трудоемкий, но иногда единственный выход, если диагностика ничего не показывает. Очевидно, что это сложно сделать с жесткими дисками, но вы можете сделать это с помощью процессора и оперативной памяти. Не забывайте добавлять вещи по очереди, иначе вы не узнаете, кто виноват.

Другое мое предложение - использовать гипервизор и создавать виртуальные машины вместо установки на «голое железо». Это значительно упростит восстановление работоспособности в случае сбоя. Кроме того, установка режима резервного копирования перед установкой приложений поможет вам больше не нуждаться в услугах восстановления данных.

Невезение? Проверьте жесткий диск на другом новом компьютере, чтобы узнать их текущий статус.

Имейте в виду, что T610 как 9-летний. Я искренне думаю, что любой современный настольный компьютер будет быстрее, чем T610.

Микропрограмма накопителя может повлиять, но ваш массив будет помечать их как чужие диски, лучше тот факт, что вы изменили их все сразу, ни один привод dell с их микропрограммой с ванильным приводом, смешанный, контроллер не позволит этого.

Их прошивка на диске позволяет контроллеру выполнять расширенные функции с диском, в то время как массив, если используется обычный диск с нормальной прошивкой, будет работать нормально.

Тот факт, что ваш массив был обнаружен, заставляет меня думать, что контроллер может их видеть и использовать. Вот почему я сначала заявляю о невезении.