Назад | Перейти на главную страницу

Ошибки жесткого диска при построении программного обеспечения RAID5

Я хочу создать свой новый NAS с CentOS 6 или Scientific Linux 6, но не могу создать RAID5. Я создал новое RAID-устройство с помощью mdadm, но после нескольких часов работы mdadm пометил один или два жестких диска как неисправные и ухудшил работу массива. Каждый раз он отмечал разные жесткие диски как неисправные. Я пробовал это на Fedora 13, CentOS 5.5 и Scientific Linux 6.0.
Все компоненты новые, а S.M.A.R.T. значения не показывают ошибок.

... after many errors ...
ata6.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
ata6.00: failed command: READ DMA EXT
ata6.00: cmd 25/00:00:ff:2d:5c/00:01:90:00:00/e0 tag 0 dma 131072 in
        res 40/00:14:e7:45:46/00:00:90:00:00/40 Emask 0x4 (timeout)
ata6.00: status: { DRDY }
ata6: hard resetting link
ata6: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata6.00: configured for UDMA/133
sd 6:0:0:0: [sdd] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
sd 6:0:0:0: [sdd] Sense Key : Aborted Command [current] [descriptor]
Descriptor sense data with sense descriptors (in hex):
       72 0b 00 00 00 00 00 0c 00 0a 80 00 00 00 00 00 
       00 00 00 e6 
sd 6:0:0:0: [sdd] Add. Sense: No additional sense information
sd 6:0:0:0: [sdd] CDB: Read(10): 28 00 90 5c 2d ff 00 01 00 00
end_request: I/O error, dev sdd, sector 2421960191
raid5:md0: read error not correctable (sector 2421960128 on sdd1).
raid5: Disk failure on sdd1, disabling device.
raid5: Operation continuing on 4 devices.
raid5:md0: read error not correctable (sector 2421960136 on sdd1).
...

Что могло вызвать эти проблемы?

Моя система:
Материнская плата: Intel DH57JG
Процессор: Intel Core i3-540
Оперативная память: Corsair XMS3 2 ГБ DDR3
Блок питания: Seasonic S12II-330Bronze
Контроллеры SATA: 4 встроенных, 2 контроллера PCIe с набором микросхем JMB363
Жесткие диски: 6x Western Digital WD20EARS

Журнал последней попытки:
укороченное бревно, полный журнал

mdadm sata

WD20EARS - это модели Caviar Green, верно?

Интересно, если они «зеленые» и замедляются после периода бездействия, заставляя mdadm думать, что они умерли. Это, вероятно, также объясняет выпадение различных дисков.

Я знаю, что у некоторых жестких дисков WD есть проблемы с RAID-массивами, потому что прошивка выполняет некоторую проверку ошибок и не отвечает достаточно быстро, поэтому хост считает, что это неисправно. Я действительно слышал об этом только в аппаратных RAID-массивах, но это вполне может быть применимо и в этом сценарии.

В конце концов, потребительские диски, выполняющие любой тип RAID, никогда не будут идеальными, и ваш пробег может отличаться.

(Я тот же Dani31, что и выше, но я потерял своего пользователя [написал запись на live-cd])

Я много читал о WD20EARS из-за ответа Бена Пилброу и кое-что изменил:

Я установил время цикла загрузки на 300 с с помощью wdidle3
и правильно отформатировал диски (с секторами 4K), используя fdisk -c -u /dev/sdX

После этих изменений процесс сборки стал в два раза быстрее, но снова не удалось. На этот раз прерывание было вызвано тем же диском (я думаю, это были разные имена дисков, потому что я использовал разные дистрибутивы).

Я просмотрел журналы ядра и увидел много ошибок чтения, поэтому я начал badblocks на этом диске и в логах ядра появились те же ошибки.

Я загрузил средство диагностики Data Lifeguard из Western Digital и запустил расширенный тест на накопителе. Результатом было «обнаружено слишком много ошибок - замените диск».

Думаю, проблема будет решена после того, как я получу свой новый диск.
Спасибо за помощь!