Это критическая ошибка RAID?

Если я сделаю следующее

/opt/MegaRAID/MegaCli/MegaCli -LDInfo -Lall -aAll -NoLog  > /tmp/tmp
/opt/MegaRAID/MegaCli/MegaCli -LDPDInfo     -aAll -NoLog >> /tmp/tmp

тогда я вижу эти ошибки

Media Error Count: 11
Other Error Count: 5

Вопрос

Что они означают? Они критичны?

Полный вывод:

Adapter 0 -- Virtual Drive Information:
Virtual Disk: 0 (target id: 0)
Name:Virtual Disk 0
RAID Level: Primary-5, Secondary-0, RAID Level Qualifier-3
Size:951296MB
State: Optimal
Stripe Size: 64kB
Number Of Drives:5
Span Depth:1
Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Access Policy: Read/Write
Disk Cache Policy: Disk's Default


Adapter #0

Number of Virtual Disks: 1
Virtual Disk: 0 (target id: 0)
Name:Virtual Disk 0
RAID Level: Primary-5, Secondary-0, RAID Level Qualifier-3
Size:951296MB
State: Optimal
Stripe Size: 64kB
Number Of Drives:5
Span Depth:1
Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Access Policy: Read/Write
Disk Cache Policy: Disk's Default
Number of Spans: 1
Span: 0 - Number of PDs: 5
PD: 0 Information
Enclosure Device ID: N/A
Slot Number: 0
Device Id: 0
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000000000000
Connected Port Number: 0 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9523610

PD: 1 Information
Enclosure Device ID: N/A
Slot Number: 1
Device Id: 1
Sequence Number: 2
Media Error Count: 11
Other Error Count: 5
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000001000000
Connected Port Number: 1 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9507278

PD: 2 Information
Enclosure Device ID: N/A
Slot Number: 2
Device Id: 2
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000002000000
Connected Port Number: 2 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9504713

PD: 3 Information
Enclosure Device ID: N/A
Slot Number: 3
Device Id: 3
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000003000000
Connected Port Number: 3 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9503028

PD: 4 Information
Enclosure Device ID: N/A
Slot Number: 4
Device Id: 4
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000004000000
Connected Port Number: 4 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9503793

У вас проблемы с диском в слоте 1. Это RAID 5, поэтому ваши данные защищены, но вы потеряли избыточность (один диск ненадежен). Ошибка носителя означает, что на диске закончились свободные сектора для переназначения поврежденных секторов на (~~http://kb.lsi.com/KnowledgebaseArticle15809.aspx~~ http://mycusthelp.info/LSI/_cs/AnswerDetail.aspx?inc=7468). Если бы это были мои данные, я был бы вдвойне скрупулезен при резервном копировании, удалил диск, заменил его новым и синхронизировал массив. Некоторые поставщики (например, IBM) принимают RMA на основе индикаторов прогнозируемых отказов, некоторые - нет. Если ваш поставщик не принимает диск с плохими, не подлежащими повторному использованию секторами как неисправный, выньте его из массива и выполните упражнение в тестовой системе. Он должен выйти из строя в разумные сроки.

Редактировать:

События мультимедиа были ненулевыми только для диска с идентификатором слота 1. В предоставленном вами журнале есть идентификатор слота для каждой записи. Странно то, что рейд сообщает о своем состоянии как об оптимальном, несмотря на ошибки носителя на диске. Тем не менее, я бы не стал доверять диску.

RAID 5, состоящий из n дисков одинакового размера, дает вам емкость (n-1) дисков, поскольку он хранит данные избыточности на один диск. Поэтому, если у вас есть шесть дисков по 250 ГБ и 1 Т полезного пространства, они, скорее всего, разделены на 5 дисков RAID 5 (что дает вам 4x250 ГБ полезного пространства) плюс 1 запасной диск.

фактически smartctl может предоставить вам подробную информацию о каждом диске в рейде MegaRaid. чтобы получить информацию о физическом диске # 0, запустите:

smartctl -a -d megaraid,0 /dev/sda|less

как правильно указывает Павел, скорее всего, это перераспределенные сектора, но у меня было несколько случаев, когда проблемы со связью [видимые в smartctl -l xerror -d megaraid, 5 / dev / sda] сообщались как Количество ошибок носителя.

Пока ваш массив запущен и работает, все должно быть в порядке. Счетчик ошибок носителя может увеличиваться из-за таких событий, как перераспределение отказавшего сектора на одном из дисков, в то время как счетчик других ошибок может быть увеличен из-за любого непроблематичного события (сброс устройства шины, цикл питания и т. Д.). Однако, если ошибка является критической, диск будет автоматически извлечен из массива контроллером и сообщен как неисправный, и в этом случае вам придется принять меры.

Было бы здорово, если бы smartctl мог предоставлять подробную информацию SMART о мегарайде и статусе отдельных единиц, но я не думаю, что он поддерживает это. На всякий случай попробуйте.

Иногда диски будут генерировать ошибки чтения, и, по моему опыту, обычно, когда это происходит, я могу запустить на нем «плохие блоки» для стресс-теста диска, и диск может сообщить о некоторых ошибках на раннем этапе, но затем, когда диск был немного нагружен он либо продолжит сообщать об ошибках, и в этом случае это плохо, либо не сообщит об ошибках.

Я полагал, что это произошло из-за того, что некоторые секторы диска являются маргинальными, а переназначение плохих блоков может сработать только тогда, когда вы записываете на диск, а не читаете с него. Если вы записываете данные в сектор, который выходит из строя, диск должен сообщить об ошибке при чтении, потому что, если он просто незаметно переназначит этот сектор на один из резервных секторов, он вернет вам неверные данные, а не ошибку. Но при записи, если он замечает, что сектор неисправен, он может записать эти данные в резервный сектор и переназначить его.

К сожалению, вы не можете очистить этот счетчик ошибок, поэтому, если у вас есть мониторинг, который сообщает об ошибках носителя, вам нужно либо заменить диск, либо сделать так, чтобы вы могли указать мониторингу игнорировать то или иное количество ошибок и сообщать только об их изменении. очередной раз.

Вы можете проверить статус SMART накопителя с помощью smartctl (спасибо, @pQd, я не знал об этом) с помощью:

MegaCli64 -PDList  -aALL | grep -e '^$' -e Slot -e Count
#  Find the slot number to use for "X".
#  For "Y" use the device name the system knows, such as "sda".
smartctl -a -d megaraid,X /dev/sdY

Вероятно, не совсем безосновательно восстановить диск и посмотреть, продолжают ли возникать проблемы. С MegaRAID вы можете сделать это с помощью следующих команд:

#  WARNING: Make sure the array is "Optimal" first, this will degrade it.
MegaCli64 -LDInfo -Lall -aALL | grep State
#  NOTE: This assumes drive 3 of enclosure 32 for adapter 0
MegaCli64 -PDOffline -PhysDrv [32:3] -a0
MegaCli64 -PDRbld -Start -PhysDrv [32:3] -a0

#  Now check the rebuild status until it completes:
MegaCli64 -PDRbld -ShowProg -PhysDrv [32:3] -a0

# And the array status should go back to Optimal
MegaCli64 -LDInfo -Lall -aALL | grep State

Раньше у меня диски постоянно выпадали из массива RAID (может быть, раз в месяц или два, на выборке от 100 до 200 дисков). Но после того, как я заменил их, диски стали не такими плохими.

Я начал записывать все диски перед их запуском в производство, используя «плохие блоки» примерно в течение недели, и после того, как я начал это делать, количество отсеиваемых массивов резко сократилось. Теперь это происходит, может быть, дважды в год на 500 дисках.

Это деструктивный тест, поэтому убедитесь, что у вас нет данных на диске:

badblocks -svw -p 5 /dev/sdX

Были "sdX" это устройство для тестирования. Будьте очень осторожны, выбор неправильного диска уничтожит ваши данные. Я запускаю свои тесты на автономном компьютере на своем тестовом стенде.