Назад | Перейти на главную страницу

Неверные данные в новом массиве рейдов

У нас возникла проблема с несогласованностью данных на сервере IBM, который мы настроили, содержащем 6 дисков SAS емкостью 1 ТБ, работающих с RAID-контроллером IBM в RAID 6. Я бы подписал его на неисправный диск (диски), только RAID-контроллер не Не сообщаю о каких-либо проблемах. Файловые системы (все ext3) были перемонтированы операционной системой в режиме только для чтения (Open Suse 11) несколько раз, после чего сервер необходимо перезапустить, выполнить fsck'ed и затем снова загрузить. Есть мысли, что может быть не так?

Механизмы RAID 6 довольно новые, может быть ошибкой прошивки. Аппаратные инженеры не всегда лучшие разработчики программного обеспечения.

Я бы устранял неполадки, сначала создавая JBOD. Затем разверните его до RAID 5, 6. Если окажется, что это аппаратный механизм RAID, вы можете использовать программный RAID.

Лично мне RAID 3+ не нравится. По сравнению с RAID 10 вы получаете больше места или большую доступность по цене четырехкратного повышения производительности при записи небольших объемов данных и сложного восстановления при отказе диска.

Прошивка для контроллера и дисков должна быть последней или самой стабильной (номера версий и ссылки для скачивания можно узнать в службе технической поддержки IBM)

Кроме того, ext3 ограничен по размеру файлов, а также по размеру раздела. проверять, выписываться http://en.wikipedia.org/wiki/Ext3 чтобы убедиться, что вы не злоупотребляете FS.

Кроме того, контроллеры на базе LSI обычно ограничивались размером логического диска 2 ТБ, что было решено с помощью недавней прошивки. возможно, вы используете раннюю прошивку, которая не совсем стабильна для логических дисков большого размера.

Вы используете контроллер LSI SAS?

У нас возникла проблема с тем, что любая SMART-активность (тесты, статус и т. Д.) Приводит к сбросу контроллера. Это приводит к неисправности дисков и ухудшению работы RAID.

Попробуйте отключить такие вещи, как smartctl, hddtemp и т. Д. Просто отключите все, что использует S.M.A.R.T.

Возможно, сервер незаметно развращает набор рейдов. Возможно, если, например, вышла из строя шина. Часто syslog / dmesg упоминает проблемы APIC и / или Interupts во время сбоя.