Назад | Перейти на главную страницу

Как выглядит сбой жесткого диска в пуле ZFS и что вы на самом деле делаете?

Люди часто говорят о теоретических преимуществах ZFS и о том, как она легко устраняет сбои жесткого диска (RAIDZ1 / 2), и Server Fault имеет множество подтверждений этому факту. Я подумываю установить NAS с 3-5 жесткими дисками с помощью FreeNAS, и я могу выполнять резервное копирование важных документов каждую ночь, поэтому я не могу простаивать более недели.

Как (физически) жесткий диск потерпеть поражение?

Что делает ZFS, и FreeNAS в частности, при выходе из строя жесткого диска в zpool? Как и в случае с SMTP-отправкой вам электронного письма, в котором говорится: «Замените жесткий диск 1 и нажмите ОК ... по завершении».

Сколько времени требуется FreeNAS для восстановления после отказа 2-х дисков в RAIDZ2?

Насколько вероятно, что мне удастся восстановиться после отказа жесткого диска в наихудшем случае в конфигурации RAIDZ2 при минимальном взаимодействии человека с компьютером?

Может ли непрофессионал выполнить восстановление графически из руководства по качеству SO или с помощью мастера?

FreeNAS поддерживает мониторинг S.M.A.R.T, поэтому, как правило, до выхода диска из строя, если уведомления настроены правильно и мониторинг включен, системный администратор будет получать отчеты о неисправных неиспользуемых секторах, перегреве и т. Д. FreeNAS начиная с версии 9.2.1.8 НЕ поддержка «горячего резерва». Запасные части, сконфигурированные в zpool, можно вручную подтолкнуть для замены неисправного диска, но ничего в программном обеспечении не обеспечивает автоматизации процесса. При двух одновременных сбоях в RAIDZ2 практически гарантированы неисправимые файловые ошибки. Это из-за процесса, известного как Bitrot. Современные диски обычно имеют размер 3 ТБ +. Чтобы лучше использовать пространство зеркала, нужно построить RAIDZ2 как минимум из 6 дисков. Теперь с одним неисправным диском и емкостью vdev, превышающей 12 ТБ в оставшемся RAID 5, таком как страйп, и скоростью URE 10 ^ 14, вы с большой вероятностью столкнетесь с URE. Почти наверняка, если производители приводов правы. Это приведет как минимум к следующему сообщению:

~# zpool status -v
  pool: dpool
 state: DEGRADED
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
scan: resilvered 6.90T in 52h5m with 313 errors on Wed Oct 22 17:44:25 2014
config:

        NAME                         STATE     READ WRITE CKSUM
        dpool                        DEGRADED     0     0 5.75K
          raidz2-0                   ONLINE       0     0    78
            c0t50014EE05807CC4Ed0    ONLINE       0     0     0
            c0t50014EE6AAD9F57Fd0    ONLINE       0     0     0
            c0t50014EE204FC5087d0    ONLINE       0     0     0
            c0t50014EE6AADA3B7Cd0    ONLINE       0     0     0
            c0t50014EE655849876d0    ONLINE       0     0     0
            c0t50014EE6AADA3DFDd0    ONLINE       0     0     0
            c0t50014EE6AADA38FFd0    ONLINE      39     0     0
          raidz2-1                   ONLINE       0     0 11.4K
            c0t50014EE6AADA45E4d0    ONLINE   1.69K     0     0
            c0t50014EE6AADA45ECd0    ONLINE     726     0     0
            c0t50014EE6AADA3944d0    ONLINE       0     0     0
            c0t50014EE204FC1F46d0    ONLINE       0     0     0
            c0t50014EE6002A74CEd0    ONLINE       0     0     0
            c0t50014EE2AFA6C8B4d0    ONLINE       0     0     0
            c0t50014EE6002F9C53d0    ONLINE       5     0     0
          raidz2-2                   DEGRADED     0     0     0
            c0t50014EE6002F39C5d0    ONLINE       0     0     0
            c0t50014EE25AFFB56Ad0    ONLINE       0     0     0
            c0t50014EE6002F65E3d0    ONLINE       0     0     0
            c0t50014EE6002F573Dd0    ONLINE       0     0     0
            c0t50014EE6002F575Ed0    ONLINE       0     0     0
            spare-5                  DEGRADED     0     0     0
              c0t50014EE6002F645Ed0  FAULTED      1    29     0  too many errors
              c0t50014EE2AFA6FC32d0  ONLINE       0     0     0
            c0t50014EE2050538DDd0    ONLINE       0     0     0
          raidz2-3                   ONLINE       0     0     0
            c0t50014EE25A518CBCd0    ONLINE       0     0     0
            c0t50014EE65584A979d0    ONLINE       0     0     0
            c0t50014EE65584AC0Ed0    ONLINE       0     0     0
            c0t50014EE2B066A6D2d0    ONLINE       0     0     0
            c0t50014EE65584D139d0    ONLINE       0     0     0
            c0t50014EE65584E5CBd0    ONLINE       0     0     0
            c0t50014EE65584E120d0    ONLINE       0     0     0
          raidz2-4                   ONLINE       0     0     0
            c0t50014EE65584EB2Cd0    ONLINE       0     0     0
            c0t50014EE65584ED80d0    ONLINE       0     0     0
            c0t50014EE65584EF52d0    ONLINE       0     0     0
            c0t50014EE65584EFD9d0    ONLINE       0     0     1
            c0t50014EE2AFA6B6D0d0    ONLINE       0     0     0
            c0t5000CCA221C2A603d0    ONLINE       0     0     0
            c0t50014EE655849F19d0    ONLINE       0     0     0
        spares
          c0t50014EE2AFA6FC32d0      INUSE     currently in use

errors: Permanent errors have been detected in the following files:

Процесс восстановления, называемый «перенастройка», будет зависеть от скорости отдельных дисков и их занятости. Подумайте о максимальной скорости 25 МБ / с. Однако вот реальный пример множественных сбоев и фактическая скорость 5 МБ / с - так что мы говорим о неделях - это диски WD 2 ТБ 7200 об / мин.

~# zpool status
  pool: dpool
 state: ONLINE
status: One or more devices is currently being resilvered.  The pool will
        continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
  scan: resilver in progress since Thu Nov 13 10:41:28 2014
        338M scanned out of 48.3T at 5.72M/s, (scan is slow, no estimated time)
        32.3M resilvered, 0.00% done
config:

        NAME                                            STATE     READ WRITE CKSUM
        dpool                                           ONLINE       0     0     0
          raidz2-0                                      ONLINE       0     0     0
            gptid/9640be78-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0  (resilvering)
            gptid/97b9d7c5-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
            gptid/994daffc-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
            gptid/9a7c78a3-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
            gptid/9c48de9d-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
            gptid/9e1ca264-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0  (resilvering)
            gptid/9fafcc1e-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
            gptid/a130f0df-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
            gptid/a2b07b02-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
            gptid/a44e4ed9-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
          raidz2-1                                      ONLINE       0     0     0
            gptid/a617b0c5-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
            gptid/a785adf7-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
            gptid/a8c69dd8-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0  (resilvering)
            gptid/aa097d45-a3e1-11e3-844a-001b21675440  ONLINE       0     0     1  (resilvering)
            gptid/ab7e0047-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
            gptid/acfe5649-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0  (resilvering)
            gptid/ae5be1b8-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
            gptid/afd04931-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
            gptid/b14ef3e7-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
            gptid/b2c8232a-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
          raidz2-2                                      ONLINE       0     0     0
            gptid/b43d9260-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
            gptid/b5bd6d79-a3e1-11e3-844a-001b21675440  ONLINE       0     0     1  (resilvering)
            gptid/b708060f-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
            gptid/b8445901-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
            gptid/b9c3b4f4-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
            gptid/bb53a54f-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
            gptid/bccf1980-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
            gptid/be50575e-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0  (resilvering)
            gptid/bff97931-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
            gptid/c1b93e80-a3e1-11e3-844a-001b21675440  ONLINE       0     0     0
        spares
          gptid/c4f52138-a3e1-11e3-844a-001b21675440    AVAIL
          gptid/c6332a6f-a3e1-11e3-844a-001b21675440    AVAIL

errors: No known data errors

Защита данных в RAIDZ НЕ предназначена для замены резервных копий. В ПБ хранилища с защитой RAID2 только в течение первых 3 лет статистически гарантированно потеряно хотя бы несколько файлов. Следовательно, репликация на второе место является обязательной. FreeNAS поддерживает отправку / получение ZFS, а также rsync. Если кто-то установил мониторинг и обращает внимание на свое уведомление, то легко инициировать дополнительную вставку в zpools. Однако текущая версия FreeNAS (9.2.1.8) не предоставляет простой способ определить слот / корпус отказавшего диска. Вы можете проверить мой ответ по теме: Как определить, какой диск вышел из строя при установке FreeNAS / ZFS

Я могу ответить на следующие вопросы из личного опыта;

Вы спросили: сколько времени требуется FreeNAS для восстановления после отказа 2-х дисков в RAIDZ2?

Замечу: в настоящее время я заменяю существующий исправный диск другим новым диском большего размера, используя команду «Заменить» в разделе «Состояние тома».

Требуется сканирование 4,67 т данных. Я получил скорость переноса данных 30 М / с. Что я думаю, это очень хорошо. На замену привода ушло около 48 часов. Поскольку массив не был поврежден, я не был (как) обеспокоен отказом другого диска во время процесса.

Вот почему так важно заменить диски. перед они выходят из строя, например, из-за ошибок SMART или любого типа ошибок записи или чтения. Я также согласен с Димитаром, что пул должен синхронизироваться с другим логически отдельным устройством, желательно ежечасно.

Вы спросили: может ли непрофессионал выполнить восстановление графически из руководства по качеству SO или с помощью мастера?

Замечу: на мой взгляд, нет. Для работы с FreeNAS / ZFS требуются хорошие технические навыки.

У меня есть диски freenaz 5 disk raid-z1 pool 3TB в течение более 5 лет, и я потерял отдельные диски, некоторые из которых SMART предупредили меня, несколько раз обнаружил, что диск щелкает или не работает в большинстве случаев, когда мой массив сказал, что он деградировал. Есть много руководств, как это сделать, а также видео на YouTube. Несколько советов сделайте снимок экрана неисправного диска, какой SN # к какому диску идет, прежде чем вы отключите его для его замены. Настройте оповещения по электронной почте в Freenas, чтобы отправлять вам текст, когда он ухудшается. Процесс повторного посеребрения занимает около 4-12 часов, по моему опыту, не используйте свой массив, пока он деградировал. Если вам нужно заказать диск, оставьте его включенным, но не используйте его. Причина, по которой я говорю, что это электроника, когда она работает в течение длительного периода времени, а затем вы ее выключаете, и они остывают, могут возникнуть проблемы. Я обычно оставляю его включенным только на несколько минут, чтобы заменить диск.