Назад | Перейти на главную страницу

Когда RAID стоит проблем?

В нашем магазине мы добросовестно используем RAID на всех наших рабочих станциях, вероятно, просто потому, что, кажется, именно так и должно быть. Я говорю о рабочих станциях для научного моделирования с использованием встроенных чипов RAID.

Но я слышал много ужасных историй о RAID. Сам Stackoverflow имеет сбой, косвенно вызванный контроллером RAID.

RAID защищает вас от очень узкого типа сбоев - сбоя физического диска - но в то же время он также создает дополнительные точки сбоя. С RAID-контроллером могут быть проблемы, и они часто возникают. По крайней мере, в нашем магазине кажется, что RAID-контроллеры выходят из строя не реже, чем сами диски. Вы также можете легко что-то испортить с процессом замены неисправного диска.

Когда RAID стоит проблем? Разве вы не получите лучшую окупаемость инвестиций, добавив больше избыточности к вашим решениям для резервного копирования? Какой тип RAID лучше или хуже в этом плане?

Изменить: я изменил название с оригинального «Стоит ли RAID беспокоиться?», Чтобы оно звучало менее негативно.

Не волнуйтесь, RAID не используется во всем мире бизнеса из-за группового мышления! Вероятность выхода из строя приличных RAID-контроллеров очень высока, далеко ниже, чем вероятность отказа диска. Я не припомню, чтобы когда-либо видел отказ RAID-контроллера в реальной жизни, хотя я видел много отказов дисков как в офисе, так и в центре обработки данных.

PS: Я вижу ваши теги. RAID не является резервным! :)

ZFS by SUN (также является частью OpenSolaris; Apple OSX - в настоящее время только для чтения) не только выполняет рейды с различными уровнями, но и всегда проверяет, действительно ли там находятся данные, записанные на диск. последовательность это ключ! RAID бесполезен, если вы не можете полагаться на его целостность. Выберите достойный RAID-контроллер (я предпочитаю HP) и периодически очищайте свой RAID, чтобы найти ошибки.

Softwareraid (как ZFS), с другой стороны, делает вас более независимым от оборудования, если RAID-контроллер выходит из строя и вы не можете получить точную замену.

Для тех из вас, кто говорит, что вы не будете использовать аппаратный RAID, потому что, если контроллер выйдет из строя и вы не сможете получить идентичную замену, которую испортили, вы поступите неправильно.

  1. Если время безотказной работы так важно для вас, вам НЕ следует покупать дешевое оборудование. Как было сказано ранее, используйте хороший рейд-контроллер, HP, LSI, Dell и т. Д.

  2. Если контроллер был приобретен у производителя компьютера, то есть у сервера Dell, с контроллером Dell RAID, Dell сообщит вам, как долго они будут хранить эти детали, обычно это в течение 4+ лет после EOL этого сервера.

  3. Если тот факт, что кто-то снова работает быстро, означает, что вы не можете дождаться доставки, вам следует купить себе второй запасной контроллер, независимо от того, кто его сделал.

  4. Если вы настроили как RAID 1, вы иногда можете взять один из этих дисков и перетащить их на обычный контроллер, чтобы восстановить данные. Если это важно для вас, подтвердите / проверьте это с помощью контроллера, прежде чем попадете в критическую ситуацию.

Аппаратный RAID спас мою задницу вдвое. После того, как на почтовом сервере отказал один из дисков, я получил уведомление по электронной почте от программного обеспечения для мониторинга рейдов на этой машине, позвонил в dell и на следующий день получил новый диск, вставил его, и он восстановил все самостоятельно. НУЛЕВОЕ время простоя на этом

Во-вторых, произошел сбой диска на старом файловом сервере, замену которого планировали через 6 месяцев. Контроллер продолжал работать, и мы перенесли замену сервера на эту неделю. Спасла покупка нового диска (так как на него не было гарантии) и снова НОЛЬ простоев.

Раньше я использовал программные рейды, и они просто не восстанавливаются так же хорошо, как аппаратные. Вы должны протестировать свою настройку, программное обеспечение или оборудование, чтобы убедиться, что они работают, и знать, что делать, когда коричневый материал попадает в вентилятор.

Всегда. Диски дешевые, вашей информации нет. Но используйте программный RAID, чтобы иметь возможность двигаться дальше или менять оборудование позже (поверьте мне, он вам понадобится). А также используйте файловую систему с контрольными суммами, такую ​​как ZFS, для защиты от скрытого повреждения данных (что в настоящее время очень вероятно с большими дисками).

Сбои жесткого диска гораздо чаще происходят на сервере, чем на настольной рабочей станции ...

Вы не можете просто сказать «добавление дополнительных точек отказа», не принимая во внимание вероятность этого отказа. Тем более, что эти менее вероятные точки отказа созданы специально для предотвращения более вероятного отказа жесткого диска. Как вы сказали, вы в основном создали Ставка Паскаля-подобное заблуждение.

Большинство RAID-систем на материнских платах для настольных ПК - это дешевые программно-аппаратные гибриды, большая часть работы которых выполняется в программном драйвере. ИМХО, это кусок дерьма, который продают опытным пользователям.

С другой стороны, хороший реальный аппаратный RAID-массив довольно надежен, и у него есть оборудование, чтобы делать свою работу без (несмотря на?) Операционной системы. Но они становятся дорогими, потому что на реальном оборудовании обычно есть резервные батареи и полный массив XOR для вычисления контрольных сумм и т. Д. Еще дороже, если это делается с использованием SCSI.

Резюме: Если вы используете RAID-системы на базе материнской платы, то нет, это не стоит проблем.

Хотя резервное копирование и RAID - это решения различных проблем, большинство «проблем с RAID» очень похожи на наиболее распространенные проблемы резервного копирования (т. Е. Никто не проверяет восстановление) - никто не проверяет восстановление системы. Другие проблемы с RAID часто являются прямым результатом того, что люди не понимают, что он делает, а что не делает. Например, многие думают, что RAID гарантирует целостность их данных, но это не так.

Для рабочих станций, если вы используете RAID-0 для повышения производительности приложений, связанных с вводом-выводом, или RAID-1/5/6, чтобы ученый продолжал работать до 100 долларов в час, когда ее жесткий диск за 80 долларов выходит из строя, вы используете RAID соответственно. Только не путайте избыточность диска с участием резервное копированиеи протестировали процедуры, гарантирующие, что ваши ИТ-специалисты справятся с восстановлением.

RAID отлично подходит для бесперебойной работы, но не заменяет резервное копирование. Как однажды заметил один из коллег: «Вы знаете, что« ох черт », когда вы что-то случайно удалили? RAID просто означает, что вы получаете доступ к более чем одному диску одновременно».

Тем не менее, в тот день, когда вы заглядываете в офис своего босса и говорите ей: «Кстати, на сервере базы данных вчера вечером произошел сбой жесткого диска - мы ни разу не вышли из строя, он завершил восстановление на резервный в 5 утра и Я отправил неисправный диск по гарантии »- тогда RAID бесценен.

Есть два типа RAID

  • Тот, который дешевый интегрированный. Это НЕ настоящий рейд, реальная работа выполняется программным обеспечением (специальный драйвер выполняет вычисления рейда). Вам следует избегать этого.
  • Другой дорогой, но получается настоящий рейд. Если вы можете себе это позволить, это того стоит.

Некоторые операционные системы имеют хорошее решение для программных рейдов (это не имеет ничего общего с упомянутыми выше дрянными картами). Особенно хорош Linux software raid, его производительность действительно хороша.

Raid может только повысить надежность, это не решение для резервного копирования. Файлы могут быть удалены случайно, неисправный диск может возвращать (и дублировать) неверные данные на другие диски в массиве рейдов, поэтому реальное решение для резервного копирования все еще необходимо.

Программный RAID для Linux превосходен, и он действительно лучше, чем аппаратный RAID низкого уровня. Он также имеет несколько оптимизаций, которые могут быть полезны для рабочей станции. Например, он может читать разные вещи на каждом диске одновременно, эффективно удваивая время чтения произвольного доступа, что является распространенным вариантом использования в отличие от операций с ограничением скорости передачи, оптимизированных с помощью RAID 0.

Что касается надежности, то это очень хорошо обслуживаемая часть ядра Linux, которую используют миллионы, она очень хорошо справляется с аппаратными сбоями, так что с точки зрения доступности это явно выигрыш. Я использовал его на своих личных рабочих станциях, а также на нескольких десятках серверов начального уровня в течение многих лет, некоторые из них были довольно загружены, и никогда не мог приписать это какой-либо неисправности. Однако за это время я испытал добрую дюжину сломанных дисков.

(Аппаратные RAID-карты более высокого класса имеют и другие функции, такие как кэш записи с резервным питанием от аккумулятора. Он в основном увеличивает скорость случайной синхронизированной записи на диск в десять раз. Это абсолютно необходимо для баз данных, но, вероятно, бесполезно для рабочих станций.)

Какова частота отказов жестких дисков и контроллеров рейдов? Выход из строя на рейд-контроллере должен быть намного ниже, чем на дисках. Если у вас высокая частота отказов, вы можете посмотреть на окружающую среду, например на статические разряды, которые могут вызывать проблемы.

Для рабочих станций вы можете использовать программный рейд, предложенный Alakdae, потому что вам не придется беспокоиться о поддержании запасов точного аппаратного контроллера. Однако у вас должна быть вся важная информация, хранящаяся на ваших серверах, которые имеют аппаратный рейд и резервные копии на разных носителях.

Производители серверного оборудования поддерживают рейдовые контроллеры, поэтому, даже если это более старый контроллер, вы, как правило, можете получить его от них, если вам нужно (хотя это будет стоить вам немалых денег).

Кажется, что многие из вышеперечисленных постов забывают исходный вопрос и просто обсуждают RAID 1. Вопрос был «Когда RAID стоит проблем?» Ну, это зависит от обстоятельств ... Если ваши разработчики выполняют много операций чтения и записи данных на своих рабочих станциях, то конфигурация RAID 0 того стоит. Добавление дополнительных дисков к этому массиву RAID 0, конечно, повысит скорость и производительность, НО увеличит вероятность сбоя (диск или контроллер).

Я работаю в школе медсестер, где развернуто около 500 машин Dell, и почти ни одна из них не использует какой-либо RAID. Мне кажется, что пользователи моего типа не увидят достаточно преимуществ, чтобы добавить сложности системы RAID на каждую машину. Меня больше беспокоит восстановление данных и создание образа диска, чем скорость RAID 0 или избыточность RAID 1. Конечно, я не говорю о наших производственных серверах, это уже другая история. Восстановление данных имеет решающее значение, поэтому мы полагаемся на другие методы резервного копирования, чтобы учесть больше, чем просто избыточность диска. Никакой RAID-массив не поможет, если пользователь случайно удалит файл.

Итак, отвечая на ваш вопрос, ИМХО ... RAID 0 на рабочей станции того стоит, когда пользователю нужна производительность. (Просто убедитесь, что все данные importa зарезервированы.) Я уверен, что вы можете проверить пропускную способность данных в существующей настройке, чтобы убедиться, что она адекватна. RAID 1 следует использовать в серверной среде, где доступны RAID-контроллеры более высокого класса. Это не стоит того, чтобы работать на рабочей станции, потому что это усложняет развертывание, создание образа диска и ремонт. Многие из этих рабочих станций поставляются с RAID-контроллерами, встроенными в материнскую плату. Приятно знать, что если материнская плата выходит из строя на машине, я всегда могу вставить диск в другую систему, чтобы получить данные.

Для рабочих станций RAID, вероятно, не стоит того, по сравнению с новой системой, на которой можно восстановить данные ...

Многие говорили о RAID 0 ... это не способствует доступности. Вы вдвое увеличиваете шансы на отказ тома, поскольку, как только один диск выходит из строя, вы теряете его целиком. RAID 0 - это просто игра со скоростью доступа к чтению / записи на томе и предоставление большего объема памяти. Единственный способ, которым это может помочь в бизнес-среде, - это взять два RAID 0 и отразить их как RAID 1.

Как уже отмечалось, RAID не является решением для резервного копирования.

RAID тоже не идеален. Я думаю, что этот пост из блога этого парня как бы резюмирует, как я отношусь к RAID и когда оно того стоит: Думаете о RAID?

На рабочей станции вы должны иметь возможность заставить одного человека использовать другую систему во время развертывания замены. Зачем использовать RAID? Его данные должны храниться на сервере, где централизовано управление, целостность данных и резервное копирование. Рабочая станция должна быть настроена так, чтобы ее можно было периодически обновлять или изменять, если позволяют финансы, а RAID - это всего лишь еще один уровень затрат и головной боли, с которым нужно справиться (плюс проблемы с энергопотреблением и нагревом с добавленными дисками и наложением воздушного потока). В большинстве случаев для предприятий, вероятно, гораздо более рентабельно вкладывать деньги с карты RAID в диск большего размера, и если вы используете встроенный RAID, у вас все равно будут проблемы, поскольку он имеет тенденцию связывать RAID форматировать на материнскую плату (и это, в любом случае, не настоящий RAID ... в поиске Google он встречается как "поддельный рейд".) Если вы не получите очень похожую материнскую плату для замены одной, когда она выйдет из строя, вы не сможете вернуться в свою Том RAID!

Дешевые реализации RAID ужасны.

Ваш выбор в порядке надежности:

1) HP DL servers with their hardware RAID.
2) 3Ware RAID cards.
3) ZFS
4) Linux Software Raid

Все остальное вызывает проблемы и действительно может привести к снижению общей надежности, чем решение без RAID.

Подумайте, что делать, если ваш контроллер вышел из строя, а производитель вышел из бизнеса.

Подумайте, сможете ли вы восстановиться после явного отказа двойного диска, вызванного проблемами с питанием / кабелями.

Это два примера из сотен.

RAID стоит проблем, когда у вас есть контроллер с батарейным питанием.

Для серверных приложений, которые часто используют файлы журнала fdatasync () (что не редкость в базах данных) для обеспечения надежности, вы в конечном итоге будете писать одни и те же блоки снова и снова. Это убьет производительность ввода-вывода, если у вас нет контроллера с батарейным питанием.

Если у вас ДЕЙСТВИТЕЛЬНО есть контроллер с батарейным питанием, многие записи даже не доходят до дисков, а просто остаются в памяти до тех пор, пока не будут заменены другой записью. Это хорошая вещь.

Резервирование - это бонус, но не существенный, поскольку важные вещи должны быть избыточными на системном уровне.

RAID полезен только тогда, когда вы абсолютно уверены, что сервер не может неожиданно выйти из строя. Мы используем RAID на всех наших серверах в нашем центре обработки данных, где нет других форм избыточности. Например, мы не используем RAID на наших веб-серверах, потому что еще 10 все еще работают.

Лакмусовая бумажка: «если диск сломается посреди ночи и он не может дождаться 9 утра, ему нужен RAID».

Для ваших научных рабочих станций это может стоить того, ЕСЛИ эти системы лучше работают с данными, хранящимися локально, а не с общим доступом на файловом сервере. Однако для населения в целом я бы сказал нет. Это не стоит хлопот и головной боли, когда все, что вам действительно нужно, - это восстановить данные, которые должны храниться в общих папках.

Я разработчик, и все наши рабочие станции используют RAID для внутренних дисков. RAID 0. Это того стоит. Вы никогда не захотите возвращаться к компиляции с одного диска 7200 об / мин после того, как попробуете пару 15000 дисков.
Меня спросили, сокращает ли время компиляции время компиляции - RAID или диск 15k. Я не знаю, ведь один быстрый диск может дать точно такую ​​же производительность. Однако один диск SAS не особенно велик для современного компьютера, поэтому дорогостоящему встроенному RAID все же есть место. Это, и я сомневаюсь, что RAID когда-либо ухудшит производительность системы.
Я думаю, что такой тип RAID, безусловно, подходит для рабочей станции и, вероятно, лучше всего сделать с помощью недорогих встроенных контроллеров. Со стороны сервера, большинство наших серверов имеют ту или иную форму RAID-массива для диска ОС, и данные затем хранятся в отдельном массиве некоторой соответствующей формы. Я не знаю о наших производственных серверах, но на наших серверах разработки (которых у нас довольно много) ни разу не выходил из строя контроллер, хотя у нас бывали отказы дисков. В одном случае у нас вышла из строя половина массива ОС в блоке SQL, когда он перестраивался, другой диск вышел из строя! Иногда RAID1 просто недостаточно!

У меня только что вышли из строя RAID-контроллеры на двух (идентичных) серверах, так как у нас были эти две машины, у нас не было ни одного отказа жесткого диска во всей компании.

Я думаю, что RAID на настольных компьютерах - плохая идея, дешевые RAID-контроллеры, которые вы собираетесь установить на эти машины, выйдут из строя задолго до того, как настоящий жесткий диск.

На серверах, возможно, я не собираюсь снова доверять RAID-контроллерам, убедитесь, что у вас есть запасная машина и хорошие резервные копии.

Зачем беспокоиться о рабочей станции? Конечно, у вас есть все ваши домашние каталоги и данные, хранящиеся централизованно. Вот где вы хотите использовать рейд.

Если вы беспокоитесь о выходе из строя контроллера диска, вам также необходимо учитывать сбой сервера - вентиляторы, материнская плата, ОЗУ, сеть ... а затем вам также необходимо учитывать сбой маршрутизатора, кабелей и питания ... и вам также необходимо учитывать сбой центра обработки данных (наводнение, пожар, человеческая ошибка), а затем вам необходимо учитывать сбой внешней сети (обрыв кабелей - все время в некоторых местах!).

Короче говоря, вы можете так сильно беспокоиться о простоях сайта, что даже не потрудитесь выложить что-нибудь онлайн! Или вы можете сопоставить риск сбоя со стоимостью избыточности и получить гораздо более реалистичный подход. И из всего, что я перечислил, жесткий диск то единственная наиболее вероятная точка отказа.

То есть рядом с человеческой ошибкой. Кто набирает "shutdown -h now"когда хотели перезагрузить .... :(

Меня больше всего беспокоят диски, так как кажется, что дешево не купишь:

Главный поставщик отмечает:

«Большинство контроллеров RAID предназначены для тайм-аута данной команды, если диск перестает отвечать в течение заданного периода времени. В результате накопитель будет отключен от сети или будет помечен как неисправный, а заказчику будет отправлено предупреждение. Диски корпоративного класса (или диски, предназначенные для сред RAID) имеют ограничение на количество повторов, прежде чем сектор будет помечен как плохой. Этот предел повторных попыток позволяет диску отвечать RAID-контроллеру в течение ожидаемого периода времени. Хотя настольные диски могут работать с RAID-контроллером, массив будет постепенно отключаться по мере старения диска, что может привести к потере данных ».

Мне это кажется безумием, еще одна ошибка, которая гарантирует, что производители дисков получат много прибыли от людей, которые «не знают лучшего». Тем не менее, я читал, что Google подготовил технический документ (не могу его найти), который показывает, что нет никакой разницы в надежности дисков между двумя «классами», предлагаемыми поставщиками хранилищ. Я сомневаюсь, что Google использует аппаратные рейдовые контроллеры в своем парке «бежевых ящиков».

Возможно, у mdadm (в linux raid) есть настройки, которые можно использовать для решения более нетерпеливых настроек в прошивках настольных накопителей?

Может быть, на самом деле каждый платит за свою гарантию через ограниченный период «тайм-аута» в прошивке контроллера?