У меня MSA20 с одним дисковым массивом на 12 дисков и 3 LUN'ами (в каждом рейде 5). Несколько дней назад вышел из строя один диск в одном из LUN, и я заменил его. Но восстановление raid5 завершилось неудачно на 13%, и я вижу в отчете ADU, что на одном из дисков указано «Зарегистрированные ошибки = 5566», и согласно спецификациям SCSI это URE (Sense Code = 0x11, Qualifier = 0x00). В последовательном журнале я также вижу ошибку URE. Похоже, что Raid5 не может быть пересобран из-за этого. Итак, у меня есть несколько вопросов:
Есть еще способ восстановить raid5?
Если я оставлю новый диск, который был заменен, и удалю диск с URE, будут ли уничтожены другие LUN или просто отказал LUN? Если все LUN выйдут из строя, какой смысл делать каждый LUN с собственным рейдом на одном массиве дисковых групп, если два вышедших из строя диска могут уничтожить все?
Насколько я понимаю, в будущем предпочтительнее создать один дисковый массив для одного LUN, а не один массив с несколькими LUN?
Спасибо.
1) Есть ли способ вылечиться?
Следуйте Руководству по обслуживанию и администрированию вашего контроллера при работе с неисправными томами.
Пока массив выключен, проверьте данные S.M.A.R.T на неисправных дисках. Диски могут быть помечены как неисправные, но по-прежнему доступны для чтения, например, если на них заканчивается зарезервированный сектор для перемещения данных.
На MSA1500cs процедура восстановления описана в главе 9 Руководство по обслуживанию и ремонту:
Если отказоустойчивость нарушена, установка новых жестких дисков не улучшает состояние логической единицы. Процедура повторного включения или приема LUN, который не отвечает, выполняется в служебной программе настройки массива (ACU) или в интерфейсе командной строки MSA (MSA-CLI).
Остановите все операции ввода-вывода.
Выключите систему
Снимите и снова вставьте все заклепки и контроллеры.
Включите систему
5.1. Убедитесь, что на ЖК-дисплее отображаются следующие сообщения:
02 ENABLE VOLUME <n>? '<'=NO, '>'=YES
04 ENABLE VOLUMES ? '<'=NO, '>'=YES
5.2. При использовании ACU: выберите Повторно включить неисправный логический диск
5.3. При использовании MSA-CLI: введите accept units
для включения всех неисправных LUN.
Я считаю, что MSA-CLI - самый удобный способ управления массивом.
2) Если я оставлю новый диск, который был заменен, и удалю диск с URE, будут ли уничтожены другие LUN или просто отказал LUN?
Это зависит от логической организации ваших массивов.
Вот пример дисковой полки, разделенной на 2 дисковых массива. Один дисковый массив имеет 4 логических тома, а другой - 2 логических тома.
# hpacucli controller csn=sga0xxxx0f array all show
MSA1500 CS in MSA1500
array A
logicaldrive 1 (2.0 TB, RAID 6 (ADG), OK)
logicaldrive 10 (2.0 TB, RAID 5, OK)
logicaldrive 11 (2.0 TB, RAID 5, OK)
logicaldrive 12 (1.3 TB, RAID 5, OK)
array B
logicaldrive 2 (2.0 TB, RAID 6 (ADG), OK)
logicaldrive 4 (2.0 TB, RAID 6 (ADG), OK)
Отказ 2 дисков в массиве A приведет к отказу логических дисков 10, 11 и 12. Логический диск 1 не выйдет из строя, так как это RAID6.
3) Насколько я понимаю, в будущем предпочтительнее создать один дисковый массив для одного LUN, а не один массив с несколькими LUN?
Это зависит. Тонкое распределение LUN может улучшить производительность, поскольку нагрузка распределяется на все диски. Разделение LUN на разные массивы защитит от помех между LUN как с точки зрения производительности, так и с точки зрения надежности, но за свою цену. Часто бывает проще вырезать LUN произвольного размера из одного большого пула, чем иметь несколько небольших пулов.
1) Маловероятно, что вы сможете восстановить именно этот массив. RAID не является резервным. Это одна из многих причин, по которым вам нужны резервные копии.
2) Это зависит от того, как настроены LUN. Если у вас есть один массив RAID 5 со всеми 12 дисками, разделенными на 3 логических блока, то, поскольку массив исчез, все его логические блоки исчезли. Если у вас есть три отдельных массива RAID 5 с 4 дисками в каждом, то исчезнет только массив, содержащий эти два диска, а остальные массивы (и, следовательно, их логические единицы) будут в порядке.
3) Во многом это зависит от того, чем вы хотите заниматься. Могут быть веские причины иметь отдельные массивы на разных дисках. Например, вы можете захотеть, чтобы сильно загруженный массив не замедлял работу других массивов. Если массивы находятся на одних и тех же физических дисках, вы не можете этого сделать. Или вы можете разрешить сильно загруженному массиву получить всю пропускную способность всех дисков. Если у вас есть отдельные массивы на разных дисках, вы не можете этого сделать.
И есть также причины, по которым вы можете захотеть разместить несколько логических единиц в одном массиве. Вы можете изолировать файловые системы, чтобы заполнение одной не заполняло другую.
Если вы поместите все логические блоки в один массив, вы потеряете меньше места. Один массив RAID 5 на 12 дисках по 1 ТБ дает полезные 11 ТБ, разделенные на три равные части, каждая по 3,6 ТБ. Если вы создадите три отдельных массива с 4 дисками по 1 ТБ, каждый будет по 3 ТБ. Таким образом, вам придется жертвовать размером, чтобы получить дополнительную надежность.
Конкретные особенности вашей гибкости и влияния на нее зависят от специфики вашего контроллера.
И несколько советов на будущее:
Рассмотрим RAID 6. Он может выдержать отказ двух дисков.
Убедитесь на 100%, что ваши массивы регулярно проверяются и что вышедшие из строя диски быстро заменяются. Это значительно снизит вероятность сбоя диска в ухудшенном состоянии.
RAID не является резервным. Храните регулярные резервные копии на физически отдельном устройстве.
Если у вас есть данные, для которых не было резервной копии, постарайтесь немедленно восстановить как можно большую их часть. Однако, если вы не можете даже установить массив, единственная надежда - профессиональное восстановление.