Сегодня умер один из дисков нашего EVA4000. Эта дисковая группа (все тома vraid5 с резервным уровнем 1 и почти не осталось места для дополнительных томов, диски 1 ТиБ) сейчас перестраивается с использованием «свободного места», и на выравнивание / восстановление потребуется не менее 15 часов.
Мы не сможем получить новый диск до пятницы. Итак, вопрос в том, что произойдет, если другой диск умрет до завершения выравнивания? Потеряем ли мы данные? И после этого сколько дополнительных дисков может умереть до потери данных? 1 или 2?
В «обычном» RAID мы были бы уязвимы к потере данных во время восстановления, но в этом случае пространство, зарезервированное для резервирования, равно два раза размер большего диска, поэтому, по крайней мере, эффект должен быть таким же, как при наличии двух запасных дисков.
Заранее спасибо.
Обновить: Я нашел несколько интересных тем по этому вопросу, но до сих пор не могу ответить на этот вопрос, поэтому я начинаю награду.
http://blog.thestoragearchitect.com/2008/10/27/understanding-eva/
http://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&url=http%3A%2F%2Fwww.experts-exchange.com%2FStorage%2FStorage_Technology%2FQ_25548177.html (Вопрос об обмене экспертами от гугла).
Выравнивание - это процесс после восстановление. Если ваш массив выравнивается, вы в такой же безопасности, как и до отказа диска.
Когда вы потеряете диск, EVA автоматически попытается использовать любое пространство на оставшихся исправных дисках для создания избыточной копии данных, которые раньше были на этом диске. Если у вас была одна группа томов с одним большим виртуальным диском с контролем четности Vraid5 и вы потеряли один диск, EVA регенерирует данные, которые раньше находились на отказавшем диске, в свободном пространстве на первом диске. Если места недостаточно, он будет использовать 2, 3 или более дисков, но вы получите резервную копию своих данных в кратчайшие сроки. Я не могу вам сказать, сколько времени это займет. Но вы вернетесь в состояние «вы можете потерять диск и не потерять свои данные» за очень короткое время. Это, конечно, если на ваших дисках достаточно свободного места.
Вы упомянули экономию. Я не знаком с этим термином, но надеюсь, что вы говорите об «уровне защиты от сбоев», который представляет собой пространство, которое будет резерв для чрезвычайной ситуации, подобной той, которую вы описываете. Единый уровень защиты означает, что он зарезервирует размер двух ваших самых больших дисков, а двойной - размер четырех дисков. EVA не будет считать это место свободным. Таким образом, если у вас есть один уровень защиты и вы используете 95% с 16 дисками по 1 ТБ, у вас будет зарезервировано 2 ТБ, а из оставшихся 14 ТБ вы используете только 95%. Используется 13,3 ТБ, а свободно 2,7 ТБ. А если принять во внимание Vraid5, то это 10,64 ТБ полезного пространства и 2,66 ТБ, потраченных на паритет.
Как только EVA сделает резервную копию на как можно меньшем количестве дисков, он начнет выравнивание (я лично предпочитаю называть это «балансировкой») данных. Этот процесс включает в себя перемещение данных, чтобы на всех ваших дисках в конечном итоге было примерно одинаковое количество данных. Этот процесс занимает ужасно много времени, особенно если вы используете довольно много, но вы в безопасности, если у вас будет еще один сбой в это время.
Зайдите в Command View и проверьте статус группы томов. Если написано, что идет выравнивание - вы в такой же безопасности, как и до аварии.
Теперь у вас осталось 15 ТБ необработанного дискового пространства, а вы используете 13,3 ТБ. EVA хочет поддерживать единый уровень защиты, но не может зарезервировать 2 ТБ (у вас только 1,7 ТБ неиспользованных), поэтому он, вероятно, восстанавливает просил уровень защиты как не замужем, а актуальный уровень защиты как никто. Он также может сообщать, что ваше использование превышает 100%, поскольку вы используете 13,3 ТБ и для удовлетворения требований единой защиты у вас должно быть менее 13 ТБ (всего 15 ТБ - 2 ТБ зарезервировано для единой защиты).
Это по-прежнему означает, что вы все равно можете потерять другой диск, но у вас все еще будет исправное хранилище. Вы можете потерять второй диск, и именно резервирование Vraid5 будет защищать ваши данные (хотя вы можете увидеть снижение производительности). И, конечно, если вам повезет, вы можете пережить отказ третьего и четвертого дисков, если они не находятся в одной полосе Vraid (Vraid5 EVA больше похож на RAID5 + 0, с полосами, охватывающими более 5 дисков).
Обновить: Не имеет отношения к вашему вопросу, но последняя Обновление прошивки FATA имеет «Исправление для самопроизвольных сбросов, которые могут происходить в редких случаях». Поверьте, неприятно видеть, как диски без причины выбрасываются из группы томов.
Обновление 2: Обновлено, потому что единый уровень защиты означает пространство для два диски.
У меня был аналогичный опыт с моим MSA 4400. Мы поддерживали его работоспособность на 95% емкости, но у него начало отказывать около 9 дисков в месяц, так что я немного знаком с резким краем катастрофы с потерей данных.
У вас есть несколько уровней рабочего пространства, которые могут предотвратить потерю данных, и трудно сказать, на каком из них вы сейчас находитесь. Разумеется, свободного места очень много. Кроме того, определенную роль играет уровень используемого вами vraid. Кроме того, даже если вы поменяете местами этот диск, его придется восстанавливать заново.
Главное, на что вам нужно обратить внимание, - это уровень защиты от сбоев в вашем пуле. Вы можете установить запрошенный уровень (например, двойной), а затем сравнить его с фактическим уровнем (например, одиночный или нулевой). Тем не менее, даже если вы перейдете от двойного до нулевого значения при отказе одного диска (одна из вещей, которые я больше всего ненавижу в этом блоке, так это то, что он позволяет это), у вас все еще есть несколько способов, которыми массив может предотвратить потерю данных с помощью четности из врейд или другая черная магия.
Для HP EVA:
Уровень 1 = емкость двух самых больших сконфигурированных дисков зарезервирована для резервирования
Это означает, что если вы потеряете 2 своих диска, вы останетесь без запасных и полагаетесь только на четность RAID5. В вашей текущей ситуации вы можете потерять еще 1 диск без деградации массива и еще 2 без потери данных, но с ухудшенной производительностью. В наших организациях у нас ВСЕГДА есть 2 запасных диска вне корпуса, которые хранятся при одной температуре (поэтому перед установкой не требуется темперирование).