У меня есть машина FreeBSD 8.x с ZFS и контроллером 3ware 9690SA.
Контроллер 3ware показывает ECC-ERROR с одним из дисков:
//host> /c0 show
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 279.39 GB SAS 0 - SEAGATE ST3300657SS
p1 OK u0 279.39 GB SAS 1 - SEAGATE ST3300657SS
p2 OK u1 931.51 GB SAS 2 - SEAGATE ST31000640SS
p3 ECC-ERROR u2 931.51 GB SAS 3 - SEAGATE ST31000640SS
p4 OK u3 931.51 GB SAS 4 - SEAGATE ST31000640SS
/c0 show events
не показывает ошибок ECC в своей недавней истории.
ZFS в настоящее время не обнаруживает никаких ошибок. zpool status
говорит No known data errors
Мой вопрос: это ECC-ERROR
то, о чем мне нужно беспокоиться?
Согласно 3ware CLI 9.5.2 Руководство, ECC-ERROR
означает, что контроллер 3ware обнаружил ошибку чтения для одного или нескольких секторов на этом диске. Иногда это происходит, когда массив RAID восстанавливается после неисправного диска. Я считаю, что ECC-ERRORS также может быть обнаружен, когда 3ware Controller проверяет каждый диск. Ни один из дисков не вышел из строя, и, следовательно, восстановление диска не производилось, поэтому я предполагаю, что 3ware обнаружило поврежденный сектор во время еженедельного сканирования дисков с автоматической проверкой. Это безопасное предположение?
Согласно нашим журналам, ZFS не обнаружила сбойных секторов на этом диске. ZFS может обходить ошибки чтения - если ZFS обнаруживает сбойный сектор на диске, он просто помечает этот сектор как сбойный и никогда не использует его снова. С точки зрения ZFS один плохой сектор не имеет большого значения, хотя может указывать на то, что диск начинает выходить из строя.
Я могу очистить ECC-ERROR
ошибки с использованием tw_cli /c0 rescan
, и согласно странице руководства tw_cli "Повторное сканирование контроллера очистит статус ошибки, если условие больше не существует.". И поскольку ошибки ECC возникают только иногда при чтении определенных секторов диска, ECC-ERROR
уходит. Поскольку ZFS предположительно переместил этот сбойный сектор в другую область диска и пометил сбойный сектор как «плохой», сбойный сектор больше никогда не будет прочитан.
Согласно документамв случае одного диска это означает, что у вас могут быть повреждены данные, а может и нет. ZFS сохраняет контрольные суммы объектов и, следовательно, возможна проверка целостности данных. Обязательно используйте RAID и запланированные проверки целостности.