Назад | Перейти на главную страницу

ECC-ошибка на новом диске в RAID1

Я управляю устаревшим сервером Linux, на котором запущена база данных postgres. Я столкнулся с ошибкой ECC на диске RAID1. 2-дисковый RAID-массив находится на PCI-карте 3Ware 9650SE-8LPML (это старая система). Я пытаюсь выяснить, является ли диск, на котором отображается ошибка ECC, нежелательным, и означает ли текущее состояние, что у меня могут быть поврежденные данные и мне необходимо восстановить данные из резервной копии.

До моей текущей ситуации у меня был неисправный диск на том же массиве RAID1 (в p5). Я заменил вышедший из строя диск на «новый», и массив успешно восстановлен и инициализирован. Затем, примерно через 3 часа после запуска ежедневной автоматической проверки, на «новом» диске (Western Digital WD2002FYPS-02W3) появилось множество предупреждающих сообщений «Предупреждение: восстановление сектора завершено; порт = 5, LBA = ...», за которыми следовали a «Error Drive ECC error report; port = 5, unit = 2», и теперь u2 отображается как неисправный, а p5 отображается как «ECC-Error». p4 (другой диск в массиве) по-прежнему отображается как «ОК».

В RAID1, если один диск указан как ECC-Error, а другой диск указан как «OK», данные были повреждены или копия на диске «OK» все еще в порядке, и только данные на ECC- Ошибка диска плохая? Если данные все еще в порядке, есть ли способ повторно использовать диск, на котором возникла ошибка ECC, или его следует рассматривать как неисправный и удалять и заменять?

Я прочитал 3Ware руководство пользователя для 9650SE, и поэтому я не уверен, почему ошибка не была обработана автоматически, исходя из этого:

Если диск является частью избыточного блока, который находится в избыточном состоянии (не поврежден или не перестраивается), то Dynamic Sector Repair автоматически перезаписывает избыточные данные в место ошибки, чтобы заставить диск перераспределить местоположение ошибки. Уведомление о ремонте помещается в список аварийных сигналов. Результат - восстановление диска и целостности данных; как первичные, так и избыточные данные снова действительны.

У меня есть резервная копия базы данных, которая работает в этой системе (еженедельные резервные копии плюс журналы WAL), поэтому я могу восстановить поврежденные данные, но я, очевидно, предпочел бы не выполнять этот процесс, если мне просто нужно заменить диск, на котором ECC-Errors или есть способ принудительного восстановления диска с ECC-ошибками с "OK" диска.