Назад | Перейти на главную страницу

Mac Mini Server середины 2011 года продолжает отключать диск из RAID, не знаю, что с этим делать.

Небольшой бизнес, в котором я работаю системным администратором, использует Mac Mini Server середины 2011 года (работающий под управлением 10.7 Lion) в качестве файлового сервера и хоста базы данных FileMaker. Его 2 жестких диска по 750 ГБ объединены в RAID 1, и Time Machine выполняет резервное копирование через USB в массив RAID 1 из 2 дисков по 1 ТБ.

Я установил его около полутора лет назад, и несколько месяцев назад у него не было проблем. Я открыл Дисковую утилиту и обнаружил, что RAID-массив вышел из строя и работал только на одном диске. Я пошел и купил еще один жесткий диск емкостью 750 ГБ, установил его и восстановил массив.

Неделю все было нормально - потом массив снова деградировал. Я перестроил массив, и он снова был в порядке до прошлой недели - когда снова массив ухудшился. Он продолжает ухудшаться на одном и том же устройстве - disk1 всегда был в порядке, но disk2 продолжает ухудшаться, независимо от того, какой физический жесткий диск там. Не думаю, что это проблема с оборудованием.

Что я должен делать? Я бы переустановил OSX, но я никогда раньше не восстанавливал резервную копию с Time Machine, и я не уверен, чего ожидать - если что-то пойдет не так, мне придется перенастроить много вещей, в том числе около 10 учетных записей пользователей и сетевых ресурсов. и прочее (не говоря уже о конфигурации FileMaker). Для меня это всего лишь побочная вещь, и я действительно не хочу сжигать на этом сценарий с вечера пятницы по утро понедельника и без остановок, потому что что-то пошло не так, и я потерял все.

Вам нужно будет очень систематично изолировать сбой, сохраняя системные журналы, отслеживая их на предмет ошибок файловой системы и подвергая сомнению свои предположения.

Зачем исключать диск 1 - если есть ошибка записи данных на два диска - система должна выбрать один, и, возможно, нет веской причины выбирать диск 2, чтобы выжить, или алгоритм основан на чем-то глупом, например, день / неделя / секунда при обнаружении ошибки четная или нечетная, и у вас слишком мало задокументированных сбоев, чтобы заметить эту закономерность.

Из формулировки вопроса - вы смешиваете две проблемы - отсутствие проверенной стратегии восстановления и того, как изолировать проблему с RAID. Постарайтесь откровенно говорить с собой и своим работодателем о рисках и позвольте им принять бизнес-решение, какую проблему решить с помощью какой бюджетной сметы.

Что касается основного вопроса здесь - вы также можете просто написать простую проверку, например diskutil list и пусть он отправит предупреждение / пейджер / захватит журналы, когда вы обнаружите следующую проблему с RAID. Я бы также отключил AutoRebuild программного обеспечения RAID, если он у вас включен, на тот случай, если проблема физическая, когда кто-то трясет сервер, и система выбирает неправильный шпиндель для повторного зеркалирования при повторном подключении кабелей.

Вы читали какие-либо файлы журналов, которые могли бы подсказать вам, в чем проблема? Я определенно не исключаю проблемы с оборудованием - не только диски могут быть повреждены, но и кабели и даже соединения на основной плате могут быть виноваты, если они не соответствуют спецификации по какой-либо причине. Однако их может быть проблематично исправить, особенно если ошибки носят спорадический характер - многие компании, включая Apple (по моему опыту), игнорируют ошибки, которые они не видят после нескольких секунд тестирования.