У меня есть сервер IBM System x3650 с контроллером ServeRaid и двумя массивами RAID5, каждый из которых состоит из 3 дисков.
Вчера вышел из строя один диск (это был массив Raid, в котором хранятся данные, система находится на массиве звуков). Я наивно доверял RAID-контроллеру при восстановлении массива. Выключил сервер, заменил вышедший из строя диск на новый аналогичный. Я загрузился в BIOS контроллера, где я увидел, что он распознал новый диск и был готов к восстановлению (мне нечего было делать, все было автоматически). Я запустил сервер, и он восстановил массив.
Сегодня утром все было в порядке. Перестройка закончилась, массив казался добротным. Всего несколько часов спустя служба mysql вылетела из строя с поврежденной базой данных. Мне удалось частично сбросить данные, а остальные восстановить из резервной копии. Я думал, что все в порядке.
Но затем я обнаружил, что некоторые активные файлы журналов были повреждены: они включали блоки из разных случайных файлов. Если я правильно понимаю ситуацию, то повреждены только файлы, измененные с момента начала перестройки, но я еще не уверен в этом на 100%. Каким-то образом перестройка должна была повредить данные.
Я задаю этот вопрос, чтобы узнать из ошибки. Надеюсь, в следующий раз никогда не будет ...
В чем может быть причина неудачной перестройки? Что я могу сделать лучше в следующий раз?
Обязательно ли отключать сервер от сети при восстановлении? Я подумал, что контроллер должен одновременно управлять перестроением и делать обычные чтения и записи.
Или этого никогда не должно происходить, а может, неисправен контроллер?
Из вашего описания кажется, что перестройка не сбой в том смысле, что массив был запущен и работал. Однако, похоже, что в процессе перестройки некоторые блоки были неправильно размещены / переназначены, что является чрезвычайно редкой, но опасной вещью.
Предлагаю вам найти время, чтобы изучить ситуацию. Вы читали / следовали руководству по карте RAID? Вы на 100% уверены, что поступили правильно? Если на оба вопроса вы ответили «да», вам следует немедленно обратиться в службу поддержки поставщика / консультанта вашего сервера.
Я снова усвоил урок, который уже знал: Прочтите журналы событий. Я бы увидел ошибки, в которых говорится, что файловая система повреждена. Я мог спланировать простой на час или два раньше времени. Я также знал, что был затронут только один логический том, а не весь физический том рейда.
Что я могу сделать лучше в следующий раз:
Восстановление рейда - важное событие, которое требует полной проверки сервера после его завершения.