Назад | Перейти на главную страницу

Тестирование RAID

Как полностью оценить конфигурацию RAID?

Извлечение дисков - это одно, но есть ли инструменты и методы для большего?

Я подумал о том, чтобы вставить гвоздь в работающий привод (пистолет для гвоздя с пороховым приводом), чтобы увидеть, что произойдет, или смоделировать различные электрические аномалии (короткие замыкания / обрывы в кабеле, перегрузки и скачки напряжения и т. Д.).

Что и как нужно тестировать?

-Адам

  • На дисках, где горячая замена невозможна, многие элементы управления raid (например, mdadm в Linux) имеют команду set-faulty, имитирующую сбой диска.
  • На дисках, где разрешена горячая замена, выдерните диск!

Я думаю, что ваше тестирование должно охватывать разумные случаи, которые вы планируете. Если вы пытаетесь установить сервер в кустах, то колебания напряжения в сети - это разумный набор тестов. Если вы находитесь в центре обработки данных, Соглашение об обслуживании, вероятно, касается электроэнергии.

Если вы считаете, что диск, стремительно взрывающийся внутри стойки, является разумным, протестируйте его. Может быть, вы настраиваете сервер в командном центре в Багдаде. Но опять же, менее вероятно, если вы находитесь в штате Вашингтон.

Как правило, ваши тесты должны охватывать все ожидаемые случаи:

  • Диск старый и в конечном итоге выходит из строя (найдите диск на последнем издыхании, запустите его, а затем бейте его до отказа)
  • Диск не проходит интеллектуальную проверку, но кажется, что все в порядке, но вы хотите заменить его на всякий случай
  • Общая замена диска из-за увеличения размера / производительности или из-за плохой партии

И разумный крайние случаи.

  • Сервер внезапно теряет мощность - хорошо.
  • Сам сервер поражен молнией - не так уж и много.
  • Стеллаж опрокидывается - нормально
  • Стойку сбил грузовик - не так уж и много.
  • Диск толкается - хорошо
  • Драйв толкания ядра - не так уж и много.

И самое главное - RAID не защищает от того, что диски тихо портят данные! Так что убедитесь, что вы выполняете хэши и проверку файлов!

Действительно, важно протестировать диск, который выходит из строя без излишеств, если вы заботитесь о максимальной надежности всего решения. Каждое отказавшее решение RAID (что означает, что избыточность не защищает от сбоев дисков), которые я видел, происходит из-за невозможности тестирования реальных сбоев дисков. Обычный тест - это вытащить диск, заявить, что неисправность диска была проверена, и двигаться дальше.

Лучшее решение, вероятно, состоит в том, чтобы иметь набор маргинальных дисков или модифицированную прошивку, которая вызывает противоречивые ответы. Только производители систем хранения могут иметь такую ​​возможность.

Мне нравится идея забить гвоздь в работающий привод, но силы, действующие на соседние диски, могут привести к нереально катастрофическому отказу. Или полный отказ диска может привести к нереально чистому отказу.

Если бы мне разрешили провести законное тестирование RAID, я бы уничтожил несколько дисков различными способами. Подключите провода к случайным компонентам на плате привода и поджарьте их или закоротите. Действительно, вставьте гвоздь в диск, если геометрия корпуса не позволяет повредить соседние диски. (Я думаю, что полученное толкание остальной части массива - разумный тест). Перехватывайте путь данных диска и возвращайте все возможные ошибки, бессмысленные результаты или правильные результаты с задержкой на случайные промежутки времени.

Ожидайте, что диски иногда возвращают неправильный блок. Ожидайте, что приводы вызовут любые мыслимые электрические проблемы при их подключении.

По моему опыту, никто, рассматривая возможность покупки хранилища, не хочет проводить настоящее тестирование. Это может выявить реальные проблемы. Мне было бы очень интересно услышать, есть ли кто-нибудь, кто действительно тестирует надежность хранилища - конечно, они не публикуют свои результаты.