У меня есть Dell T7500 с PERC H710P, подключенным к 4 дискам 3T в массиве RAID5. К контроллеру также подключены 2 твердотельных накопителя емкостью 256 ГБ, не настроенные в виде массива. Сервер Linux установлен на одном из SSD-накопителей, а RAID5 - это место, где хранятся все мои пользовательские данные.
На днях при загрузке RAID BIOS сообщил об ошибках
Drives 01 and 03 missing
Foreign config available
Я загрузил чужой конфиг, и диски снова появились. При следующей загрузке я получил
Drive 01 offline
Думая, что диск неисправен, я заменил его новым и восстановил диск 01. Когда я в следующий раз загрузился, система работала нормально, но через несколько перезагрузок я получил
Drive 00 offline
Foreign config available
Итак, я прочитал в конфигурации Foreign и ввел 00 онлайн.
После нескольких перезагрузок я получил
Drive 03 offline
Foreign config available
Читайте в чужом конфиге. Заставить привод 03 онлайн.
Теперь система работает нормально. Перезагружал много раз.
Должен ли я предполагать, что мой контроллер плохой?
Или, говоря по-другому, есть ли вероятность того, что такое поведение может быть вызвано чем-то другим, кроме контроллера? Например, может ли драйвер ядра как-то испортить конфигурацию драйвера?
Да, я считаю, что либо ваш контроллер, либо рейдовая объединительная плата плохие. Но я думаю, что виноват контроллер. Можете ли вы найти версию микропрограммы RAID-контроллера (не путать с системным BIOS, который вам также следует проверить) и сравнить с тем, что доступно на сайте Dell? Вы можете обнаружить, что версия довольно старая, а критические проблемы были решены в более новых версиях. В качестве альтернативы вы можете попробовать позвонить в службу поддержки Dell - что, безусловно, следует сделать, если поддержка доступна! Вы можете легко проверить действующий контракт на обслуживание, просмотрев метку обслуживания на сайте support.dell.com.
Два предупреждения. Вы находитесь на опасной территории. Обновление микропрограммы RAID-контроллера иногда может привести к потере данных - убедитесь, что новая версия отсутствует некоторое время, и внимательно прочтите примечания к выпуску. 2) RAID 5 не дает много места для маневра. В любом случае подготовьтесь к резервному копированию важных данных, прежде чем вы дадите время на решение этой проблемы, или предпримите какие-либо существенные корректирующие действия!
В дополнение к замечательным предложениям whitepaws (получить резервную копию, обновить прошивку и т. Д.) Вы можете рассмотреть возможность обращения в службу поддержки Dell, если вы все еще находитесь на гарантии. Есть вероятность, что в журнале контроллера будет дополнительная информация о том, что происходит, и вы сможете узнать о потенциальной причине ваших проблем.
В более прямом ответе на ваш вопрос ... да, вполне возможно, что что-то другое, кроме самого контроллера, может вызвать проблемы (а именно, плохой драйвер, если ваш достаточно старый). Однако это маловероятно - проблемы с самим контроллером или с некоторым другим оборудованием более вероятны. Иногда один плохой диск может вызывать проблемы и со всеми остальными - это то, что мы проверяем в журнале контроллера.
Если вы хотите получать журналы, у вас есть несколько более сложных вариантов управления.
Если во время загрузки у вас установлен UEFI Bios, вы можете настроить вход в систему. Это описано в руководстве: ftp://ftp.dell.com/manuals/all-products/esuprt_ser_stor_net/esuprt_dell_adapters/poweredge-rc-h310_User%27s%20Guide_en-us.pdf
Вы также можете установить OpenManage и получить информацию таким образом: http://linux.dell.com/wiki/index.php/Repository/hardware
Третье предложение по резервным копиям. Резервное копирование, резервное копирование, резервное копирование. В 2013 году из-за высокой плотности записи, неисправных файловых систем и особенностей твердотельных накопителей практически невозможно восстановить данные с поврежденных дисков. Предположим полную потерю данных во время любого сбоя.
В наши дни даже RAID 5 считается рискованным. Или вообще RAID. Я неоднократно сталкивался с проблемами, связанными с ошибками контроллера, которые приводили к повреждению ОБЕИХ дисков в базовом зеркальном массиве RAID 1 и его вариантах (RAID 10). Те же проблемы с RAID 5 и RAID 6.
В настоящее время считается лучшей практикой использовать RAID в основном для чередования RAID 0 и использовать полностью независимую систему (отдельные диски / массив) для резервного копирования с использованием программного обеспечения резервного копирования.
Другими словами, обычно считается, что лучше создать резервную копию одного жесткого диска на внешнем жестком диске USB, чем создавать зеркальный массив.