Назад | Перейти на главную страницу

Имеет ли значение «ECC-ERROR» 3ware для JBOD, когда у меня ZFS?

У меня есть машина FreeBSD 8.x с ZFS и контроллером 3ware 9690SA.

Контроллер 3ware показывает ECC-ERROR с одним из дисков:

//host> /c0 show
VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   279.39 GB SAS   0   -            SEAGATE ST3300657SS 
p1    OK             u0   279.39 GB SAS   1   -            SEAGATE ST3300657SS 
p2    OK             u1   931.51 GB SAS   2   -            SEAGATE ST31000640SS
p3    ECC-ERROR      u2   931.51 GB SAS   3   -            SEAGATE ST31000640SS
p4    OK             u3   931.51 GB SAS   4   -            SEAGATE ST31000640SS

/c0 show events не показывает ошибок ECC в своей недавней истории.

ZFS в настоящее время не обнаруживает никаких ошибок. zpool status говорит No known data errors

Мой вопрос: это ECC-ERROR то, о чем мне нужно беспокоиться?

Согласно 3ware CLI 9.5.2 Руководство, ECC-ERROR означает, что контроллер 3ware обнаружил ошибку чтения для одного или нескольких секторов на этом диске. Иногда это происходит, когда массив RAID восстанавливается после неисправного диска. Я считаю, что ECC-ERRORS также может быть обнаружен, когда 3ware Controller проверяет каждый диск. Ни один из дисков не вышел из строя, и, следовательно, восстановление диска не производилось, поэтому я предполагаю, что 3ware обнаружило поврежденный сектор во время еженедельного сканирования дисков с автоматической проверкой. Это безопасное предположение?

Согласно нашим журналам, ZFS не обнаружила сбойных секторов на этом диске. ZFS может обходить ошибки чтения - если ZFS обнаруживает сбойный сектор на диске, он просто помечает этот сектор как сбойный и никогда не использует его снова. С точки зрения ZFS один плохой сектор не имеет большого значения, хотя может указывать на то, что диск начинает выходить из строя.

Я могу очистить ECC-ERROR ошибки с использованием tw_cli /c0 rescan, и согласно странице руководства tw_cli "Повторное сканирование контроллера очистит статус ошибки, если условие больше не существует.". И поскольку ошибки ECC возникают только иногда при чтении определенных секторов диска, ECC-ERROR уходит. Поскольку ZFS предположительно переместил этот сбойный сектор в другую область диска и пометил сбойный сектор как «плохой», сбойный сектор больше никогда не будет прочитан.

Согласно документамв случае одного диска это означает, что у вас могут быть повреждены данные, а может и нет. ZFS сохраняет контрольные суммы объектов и, следовательно, возможна проверка целостности данных. Обязательно используйте RAID и запланированные проверки целостности.