В небольшой серверной системе у меня есть файловая система zfs с парой зеркальных дисков потребительского уровня (Seagate Barracudas). Недавно во время периодической операции очистки был получен следующий результат:
pool: storage
state: ONLINE
status: One or more devices has experienced an unrecoverable error. An
attempt was made to correct the error. Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
using 'zpool clear' or replace the device with 'zpool replace'.
see: http://zfsonlinux.org/msg/ZFS-8000-9P
scan: scrub repaired 10.9M in 44h14m with 0 errors on Tue Jun 6 00:11:23 2017
config:
NAME STATE READ WRITE CKSUM
storage ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
map2_sda ONLINE 0 0 0
map2_sdb ONLINE 0 0 55
errors: No known data errors
Между этой операцией очистки и предыдущей было несколько сбоев питания и подобных событий, которые, я думаю, могут быть вероятной причиной сбоя, но я беспокоюсь о возможности того, что это надвигающаяся аппаратная ошибка, особенно с учетом того, что один диск был полностью чистым, а в другом было несколько ошибок.
smartctl сообщает мне, что подозрительный диск имел в общей сложности 117 ошибок за время своего существования (935 дней), но все наиболее очевидные индикаторы ошибок не соответствуют своим пороговым значениям:
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 109 081 006 Pre-fail Always - 22737688
5 Reallocated_Sector_Ct 0x0033 092 092 010 Pre-fail Always - 9784
7 Seek_Error_Rate 0x000f 083 060 030 Pre-fail Always - 213798923
9 Power_On_Hours 0x0032 075 075 000 Old_age Always - 22599
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
Указывает ли что-нибудь здесь на необходимость предварительной замены этого диска? Мне не нужно 100% время безотказной работы на этой машине, но я бы предпочел не беспокоиться о нескольких днях повторного обновления, которые потребовались бы, если бы мне действительно пришлось заменить диск в чрезвычайной ситуации.
На твоем месте я бы не запаниковал, уж точно не заменить это (что на самом деле ставит вас в более сложную ситуацию, только с одним диском, почти три года подряд, для восстановления более 44 часов ...) Я бы поместил самый большой диск, который я мог разумно позволить, в свободный слот и добавил его к пул (не как запасной, как 3-стороннее зеркало), и когда (если) один из двух других сначала вышел из строя, я бы заменил его другим большим и увеличил пул ... одна из лучших функций zfs .. .но это только я.
Старый, но посмотри опыт Google с SMART, частота отказов дисков, нагрев, возраст ...
Ошибки контрольной суммы гораздо менее критичны, чем ошибки чтения или записи. В то время как ошибки чтения / записи указывают на то, что блок не может быть прочитан или записан вообще (что наиболее вероятно из-за того, что он постоянно поврежден), ошибки контрольной суммы просто означают, что то, что было получено, не является тем, что должно было быть получено (согласно собственному ZFS. контрольные суммы).
Вы можете исследовать причину ошибок:
Если вы не можете ничего найти и получить дополнительное (возможно, увеличивающееся или большое) количество ошибок контрольной суммы, вы можете заменить диск. Вы можете сделать это, добавив сначала третье зеркало, как предлагал quadruplebucky, и перенастроить его в нерабочее время. Любая дополнительная нагрузка на машину замедлит процесс переноса серебра. В зависимости от диска, возможно, что только «хороший» диск восстановится быстрее, чем оба, но только если «плохой» действительно плохой (чего я не предполагаю).