Назад | Перейти на главную страницу

«Обязательное» свободное место в SAN?

Я не эксперт в SAN, я пишу сюда, чтобы получить некоторые подсказки о постоянных и насущных проблемах, которые у нас возникают, которые наш поставщик, похоже, не в состоянии решить.

у нас есть ENHANCE ES3160P4 SAN с дисками 16 x 2 ТБ, который поставляется для нашей системы видеонаблюдения. Поставщик настроил сеть SAN для использования 14 дисков в массиве RAID 5, и 2 диска являются глобальными запасными. RAID обычно делится на 2 виртуальных диска равного размера, которые охватывают все пространство RAID. Результат каждого - больше 12 Тб. Каждый виртуальный диск соответствует одному LUN, который подключен к одному видеосерверу, который непрерывно хранит видеоданные и позволяет пользователям при необходимости получать записи. LUN отформатированы в NTFS и подключаются к видеосерверам Windows Server 2012 через iSCSI. Видеосерверы стремятся полностью использовать имеющееся у них пространство.

При такой конфигурации диски SAN выходят из строя и выходят из строя, и каждый раз SAN не может восстановить RAID, потому что в это время выходит из строя другой диск. Мы теряли RAID примерно 4 раза за последние несколько месяцев.

Эта проблема, похоже, не вызвана плохим образцом SAN, потому что у нас есть другие три машины того же типа, сконфигурированные аналогичным образом, которые, похоже, имеют те же проблемы. Только у одного проблем нет, но пока он мало используется.

После нескольких месяцев неизвестных тестов и проверок поставщик в конечном итоге сказал, что хорошо известно, что SAN не следует использовать на 100%, иначе он быстро ухудшится, в том числе физически, и сказал, что для решения проблемы необходимо создать виртуальные диски. оставляя 10-15% от общего пространства, доступного в RAID.

Я искал в Интернете эту проблему и не нашел конкретных утверждений об этом. Мне кажется, что было бы более разумно создать виртуальные диски, охватывающие весь RAID, а затем недостаточно использовать LUN (то есть, чтобы у Windows было свободное место и избегала фрагментации). Если нет, я не понимаю, почему ENHANCE SAN позволяет создавать виртуальные диски, охватывающие весь RAID, если он настолько «хорошо известен», что необходимо оставить некоторое свободное пространство, и почему поставщик настроил систему таким образом в начале. ... но это другое дело.

В конце концов, мы хотим решить эту ситуацию. Любые предложения принимаются. Как уже было сказано, я не эксперт по SAN, но после стольких проблем я хотел бы действительно понять, знает ли поставщик, что происходит, или нет, потому что мы больше не можем мириться с этой ситуацией.

Спасибо заранее! С уважением

Изменить: тип диска Поскольку ответ кажется актуальной информацией, я добавляю, что все диски - это Western Digital модель WD2001FYYG-01SL3.

Из того, что вы описываете, основная проблема заключается в том, что они решили использовать RAID5 для такого большого массива, что является довольно плохим выбором для этой настройки, именно по той причине, которую вы испытываете: сбой второго диска во время восстановления ломает все, и эта вторая неудача слишком велика для того, чтобы пойти на такой риск.

Если бы они использовали, например, вместо RAID6 отказ второго диска во время восстановления не приведет к отказу массива, и восстановление может продолжаться нормально, за счет чистой емкости хранилища на одном диске и определенного снижения производительности.

Я не понимаю, как оставить 15% свободного пространства вообще помочь с этой проблемой, и хотя это может быть, а может и не быть хорошей идеей с точки зрения производительности для файловой системы, это явно не связано с отказом RAID. Я считаю это чушью.

С учетом всего сказанного я не могу не задаться вопросом: то, что это происходит несколько раз в течение нескольких месяцев, кажется слишком большим даже для системы RAID5. Я бы посоветовал изучить используемые типы дисков - возможно, ваш поставщик использовал дешевые настольные диски вместо дисков, сертифицированных для использования в такой системе 24/7.

Я полностью понимаю, что это старый пост, но, поскольку я продолжаю видеть большие массивы RAID5 в производстве, я хотел бы добавить сюда свои мысли.

Слишком частые выходы из строя дисков, как правило, связаны с перегревом и / или слишком сильной вибрацией, которую можно найти в плохо спроектированных системах или в плохих местах.
такие большие массивы RAID5 должны быть сильно избегали. Как правило, это много Лучше иметь массив RAID6, а не RAID5 + с горячей заменой. В случае OP, вместо того, чтобы иметь 1х диск четности с 2х глобальными резервными копиями, было гораздо лучше иметь 2х четный диск в конфигурации RAID6;
Ключевым моментом является наличие надежной системы отчетов об ошибках и состоянии: бессознательно деградированный, не отслеживаемый массив - это рецепт катастрофы.