Назад | Перейти на главную страницу

Как интерпретировать данные об отказах, предоставленные SMART и zfs

В небольшой серверной системе у меня есть файловая система zfs с парой зеркальных дисков потребительского уровня (Seagate Barracudas). Недавно во время периодической операции очистки был получен следующий результат:

  pool: storage
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 10.9M in 44h14m with 0 errors on Tue Jun  6 00:11:23 2017
config:

        NAME          STATE     READ WRITE CKSUM
        storage       ONLINE       0     0     0
          mirror-0    ONLINE       0     0     0
            map2_sda  ONLINE       0     0     0
            map2_sdb  ONLINE       0     0    55

errors: No known data errors

Между этой операцией очистки и предыдущей было несколько сбоев питания и подобных событий, которые, я думаю, могут быть вероятной причиной сбоя, но я беспокоюсь о возможности того, что это надвигающаяся аппаратная ошибка, особенно с учетом того, что один диск был полностью чистым, а в другом было несколько ошибок.

smartctl сообщает мне, что подозрительный диск имел в общей сложности 117 ошибок за время своего существования (935 дней), но все наиболее очевидные индикаторы ошибок не соответствуют своим пороговым значениям:

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   109   081   006    Pre-fail  Always       -       22737688
  5 Reallocated_Sector_Ct   0x0033   092   092   010    Pre-fail  Always       -       9784
  7 Seek_Error_Rate         0x000f   083   060   030    Pre-fail  Always       -       213798923
  9 Power_On_Hours          0x0032   075   075   000    Old_age   Always       -       22599
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0

Указывает ли что-нибудь здесь на необходимость предварительной замены этого диска? Мне не нужно 100% время безотказной работы на этой машине, но я бы предпочел не беспокоиться о нескольких днях повторного обновления, которые потребовались бы, если бы мне действительно пришлось заменить диск в чрезвычайной ситуации.

На твоем месте я бы не запаниковал, уж точно не заменить это (что на самом деле ставит вас в более сложную ситуацию, только с одним диском, почти три года подряд, для восстановления более 44 часов ...) Я бы поместил самый большой диск, который я мог разумно позволить, в свободный слот и добавил его к пул (не как запасной, как 3-стороннее зеркало), и когда (если) один из двух других сначала вышел из строя, я бы заменил его другим большим и увеличил пул ... одна из лучших функций zfs .. .но это только я.

Старый, но посмотри опыт Google с SMART, частота отказов дисков, нагрев, возраст ...

Ошибки контрольной суммы гораздо менее критичны, чем ошибки чтения или записи. В то время как ошибки чтения / записи указывают на то, что блок не может быть прочитан или записан вообще (что наиболее вероятно из-за того, что он постоянно поврежден), ошибки контрольной суммы просто означают, что то, что было получено, не является тем, что должно было быть получено (согласно собственному ZFS. контрольные суммы).

Вы можете исследовать причину ошибок:

  • Происходили ли они уже когда-нибудь или впервые?
  • Что-нибудь случилось с машиной (кто-то переместил ее, потрогал, заменил другое оборудование)?
  • Были ли произошли непредвиденные перезагрузки и / или потери питания или другие события с питанием (если ваши устройства позволяют это контролировать)?
  • Как обстоят дела с нагревом и ударами в корпусе обоих дисков?
  • Оба диска чем-то отличаются (разные кабели, разные позиции в случае кабелей, на разных контроллерах и т. Д.)?
  • Что-нибудь странное произошло в доступных журналах?

Если вы не можете ничего найти и получить дополнительное (возможно, увеличивающееся или большое) количество ошибок контрольной суммы, вы можете заменить диск. Вы можете сделать это, добавив сначала третье зеркало, как предлагал quadruplebucky, и перенастроить его в нерабочее время. Любая дополнительная нагрузка на машину замедлит процесс переноса серебра. В зависимости от диска, возможно, что только «хороший» диск восстановится быстрее, чем оба, но только если «плохой» действительно плохой (чего я не предполагаю).