Назад | Перейти на главную страницу

Ложные сбои RAID-контроллера. У меня плохой контроллер или мои диски?

У меня есть Dell T7500 с PERC H710P, подключенным к 4 дискам 3T в массиве RAID5. К контроллеру также подключены 2 твердотельных накопителя емкостью 256 ГБ, не настроенные в виде массива. Сервер Linux установлен на одном из SSD-накопителей, а RAID5 - это место, где хранятся все мои пользовательские данные.

На днях при загрузке RAID BIOS сообщил об ошибках

Drives 01 and 03 missing
Foreign config available

Я загрузил чужой конфиг, и диски снова появились. При следующей загрузке я получил

Drive 01 offline

Думая, что диск неисправен, я заменил его новым и восстановил диск 01. Когда я в следующий раз загрузился, система работала нормально, но через несколько перезагрузок я получил

Drive 00 offline
Foreign config available

Итак, я прочитал в конфигурации Foreign и ввел 00 онлайн.

После нескольких перезагрузок я получил

Drive 03 offline
Foreign config available

Читайте в чужом конфиге. Заставить привод 03 онлайн.

Теперь система работает нормально. Перезагружал много раз.

Должен ли я предполагать, что мой контроллер плохой?

Или, говоря по-другому, есть ли вероятность того, что такое поведение может быть вызвано чем-то другим, кроме контроллера? Например, может ли драйвер ядра как-то испортить конфигурацию драйвера?

Да, я считаю, что либо ваш контроллер, либо рейдовая объединительная плата плохие. Но я думаю, что виноват контроллер. Можете ли вы найти версию микропрограммы RAID-контроллера (не путать с системным BIOS, который вам также следует проверить) и сравнить с тем, что доступно на сайте Dell? Вы можете обнаружить, что версия довольно старая, а критические проблемы были решены в более новых версиях. В качестве альтернативы вы можете попробовать позвонить в службу поддержки Dell - что, безусловно, следует сделать, если поддержка доступна! Вы можете легко проверить действующий контракт на обслуживание, просмотрев метку обслуживания на сайте support.dell.com.

Два предупреждения. Вы находитесь на опасной территории. Обновление микропрограммы RAID-контроллера иногда может привести к потере данных - убедитесь, что новая версия отсутствует некоторое время, и внимательно прочтите примечания к выпуску. 2) RAID 5 не дает много места для маневра. В любом случае подготовьтесь к резервному копированию важных данных, прежде чем вы дадите время на решение этой проблемы, или предпримите какие-либо существенные корректирующие действия!

В дополнение к замечательным предложениям whitepaws (получить резервную копию, обновить прошивку и т. Д.) Вы можете рассмотреть возможность обращения в службу поддержки Dell, если вы все еще находитесь на гарантии. Есть вероятность, что в журнале контроллера будет дополнительная информация о том, что происходит, и вы сможете узнать о потенциальной причине ваших проблем.

В более прямом ответе на ваш вопрос ... да, вполне возможно, что что-то другое, кроме самого контроллера, может вызвать проблемы (а именно, плохой драйвер, если ваш достаточно старый). Однако это маловероятно - проблемы с самим контроллером или с некоторым другим оборудованием более вероятны. Иногда один плохой диск может вызывать проблемы и со всеми остальными - это то, что мы проверяем в журнале контроллера.

Если вы хотите получать журналы, у вас есть несколько более сложных вариантов управления.

Если во время загрузки у вас установлен UEFI Bios, вы можете настроить вход в систему. Это описано в руководстве: ftp://ftp.dell.com/manuals/all-products/esuprt_ser_stor_net/esuprt_dell_adapters/poweredge-rc-h310_User%27s%20Guide_en-us.pdf

Вы также можете установить OpenManage и получить информацию таким образом: http://linux.dell.com/wiki/index.php/Repository/hardware

Третье предложение по резервным копиям. Резервное копирование, резервное копирование, резервное копирование. В 2013 году из-за высокой плотности записи, неисправных файловых систем и особенностей твердотельных накопителей практически невозможно восстановить данные с поврежденных дисков. Предположим полную потерю данных во время любого сбоя.

В наши дни даже RAID 5 считается рискованным. Или вообще RAID. Я неоднократно сталкивался с проблемами, связанными с ошибками контроллера, которые приводили к повреждению ОБЕИХ дисков в базовом зеркальном массиве RAID 1 и его вариантах (RAID 10). Те же проблемы с RAID 5 и RAID 6.

В настоящее время считается лучшей практикой использовать RAID в основном для чередования RAID 0 и использовать полностью независимую систему (отдельные диски / массив) для резервного копирования с использованием программного обеспечения резервного копирования.

Другими словами, обычно считается, что лучше создать резервную копию одного жесткого диска на внешнем жестком диске USB, чем создавать зеркальный массив.