На моем рабочем компьютере установлено 4 жестких диска в zpool в системе Ubuntu. Я по образованию программист, а не ИТ, но частично отвечаю за управление своим компьютером. На днях после перезагрузки я заметил, что пул не смонтирован, и это был результат команды zpool status:
pool: zhoupool
state: DEGRADED
status: One or more devices could not be used because the label is missing or
invalid. Sufficient replicas exist for the pool to continue
functioning in a degraded state.
action: Replace the device using 'zpool replace'.
see: http://zfsonlinux.org/msg/ZFS-8000-4J
scan: scrub repaired 0 in 1h48m with 0 errors on Sun Mar 12 03:12:25 2017
config:
NAME STATE READ WRITE CKSUM
zhoupool DEGRADED 0 0 0
mirror-0 ONLINE 0 0 0
ata-ST3000DM001-1ER166_Z500GM2P ONLINE 0 0 0
ata-ST3000DM001-1ER166_Z500GMZ3 ONLINE 0 0 0
mirror-1 DEGRADED 0 0 0
11645674422250617741 UNAVAIL 0 0 0 was /dev/disk/by-id/ata-ST3000DM001-1ER166_Z500GP0C-part1
ata-ST3000DM001-1ER166_Z500GVM5 ONLINE 0 0 0
errors: No known data errors
Я намеревался заменить жесткий диск, однако позже заметил, что пул был смонтирован (машина была перезапущена хотя бы один раз после первоначальной ошибки). Теперь вывод состояния zpool был:
pool: zhoupool
state: ONLINE
status: One or more devices has experienced an unrecoverable error. An
attempt was made to correct the error. Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
using 'zpool clear' or replace the device with 'zpool replace'.
see: http://zfsonlinux.org/msg/ZFS-8000-9P
scan: scrub repaired 31.0G in 2h10m with 0 errors on Sun May 14 02:34:46 2017
config:
NAME STATE READ WRITE CKSUM
zhoupool ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
ata-ST3000DM001-1ER166_Z500GM2P ONLINE 0 0 0
ata-ST3000DM001-1ER166_Z500GMZ3 ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
ata-ST3000DM001-1ER166_Z500GP0C ONLINE 0 0 258K
ata-ST3000DM001-1ER166_Z500GVM5 ONLINE 0 0 0
errors: No known data errors
Это все еще указывало на ошибку, поэтому я все еще работал над заказом нового жесткого диска для его замены. Однако теперь я замечаю, что статус zpool не указывает на ошибки:
pool: zhoupool
state: ONLINE
status: Some supported features are not enabled on the pool. The pool can
still be used, but some features are unavailable.
action: Enable all features using 'zpool upgrade'. Once this is done,
the pool may no longer be accessible by software that does not support
the features. See zpool-features(5) for details.
scan: scrub repaired 0 in 2h11m with 0 errors on Sun Jul 9 02:35:48 2017
config:
NAME STATE READ WRITE CKSUM
zhoupool ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
ata-ST3000DM001-1ER166_Z500GM2P ONLINE 0 0 0
ata-ST3000DM001-1ER166_Z500GMZ3 ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
ata-ST3000DM001-1ER166_Z500GP0C ONLINE 0 0 0
ata-ST3000DM001-1ER166_Z500GVM5 ONLINE 0 0 0
errors: No known data errors
Так должен ли я все еще беспокоиться? Действительно ли произошел сбой жесткого диска, или причиной ошибок был сбой в программном обеспечении? Как мне это диагностировать?
Ваши данные должны быть в безопасности. Похоже, скраб на 5/14 очистил все, а следующие скрабы стали чистыми. Проверьте dmesg, чтобы увидеть, не выдаёт ли это устройство таймауты / ошибки.
Вы должны использовать smartmontools для сбора данных SMART с дисков, проверки состояния и периодических онлайн-проверок. (Вот достойная запись: https://www.howtoforge.com/checking-hard-disk-sanity-with-smartmontools-debian-ubuntuСкорее всего, это будет не последний раз, когда диск срывается.