Назад | Перейти на главную страницу

Это критическая ошибка RAID?

Если я сделаю следующее

/opt/MegaRAID/MegaCli/MegaCli -LDInfo -Lall -aAll -NoLog  > /tmp/tmp
/opt/MegaRAID/MegaCli/MegaCli -LDPDInfo     -aAll -NoLog >> /tmp/tmp

тогда я вижу эти ошибки

Media Error Count: 11
Other Error Count: 5

Вопрос

Что они означают? Они критичны?

Полный вывод:

Adapter 0 -- Virtual Drive Information:
Virtual Disk: 0 (target id: 0)
Name:Virtual Disk 0
RAID Level: Primary-5, Secondary-0, RAID Level Qualifier-3
Size:951296MB
State: Optimal
Stripe Size: 64kB
Number Of Drives:5
Span Depth:1
Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Access Policy: Read/Write
Disk Cache Policy: Disk's Default


Adapter #0

Number of Virtual Disks: 1
Virtual Disk: 0 (target id: 0)
Name:Virtual Disk 0
RAID Level: Primary-5, Secondary-0, RAID Level Qualifier-3
Size:951296MB
State: Optimal
Stripe Size: 64kB
Number Of Drives:5
Span Depth:1
Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Access Policy: Read/Write
Disk Cache Policy: Disk's Default
Number of Spans: 1
Span: 0 - Number of PDs: 5
PD: 0 Information
Enclosure Device ID: N/A
Slot Number: 0
Device Id: 0
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000000000000
Connected Port Number: 0 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9523610

PD: 1 Information
Enclosure Device ID: N/A
Slot Number: 1
Device Id: 1
Sequence Number: 2
Media Error Count: 11
Other Error Count: 5
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000001000000
Connected Port Number: 1 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9507278

PD: 2 Information
Enclosure Device ID: N/A
Slot Number: 2
Device Id: 2
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000002000000
Connected Port Number: 2 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9504713

PD: 3 Information
Enclosure Device ID: N/A
Slot Number: 3
Device Id: 3
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000003000000
Connected Port Number: 3 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9503028

PD: 4 Information
Enclosure Device ID: N/A
Slot Number: 4
Device Id: 4
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000004000000
Connected Port Number: 4 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9503793

У вас проблемы с диском в слоте 1. Это RAID 5, поэтому ваши данные защищены, но вы потеряли избыточность (один диск ненадежен). Ошибка носителя означает, что на диске закончились свободные сектора для переназначения поврежденных секторов на (http://kb.lsi.com/KnowledgebaseArticle15809.aspx http://mycusthelp.info/LSI/_cs/AnswerDetail.aspx?inc=7468). Если бы это были мои данные, я был бы вдвойне скрупулезен при резервном копировании, удалил диск, заменил его новым и синхронизировал массив. Некоторые поставщики (например, IBM) принимают RMA на основе индикаторов прогнозируемых отказов, некоторые - нет. Если ваш поставщик не принимает диск с плохими, не подлежащими повторному использованию секторами как неисправный, выньте его из массива и выполните упражнение в тестовой системе. Он должен выйти из строя в разумные сроки.

Редактировать:

События мультимедиа были ненулевыми только для диска с идентификатором слота 1. В предоставленном вами журнале есть идентификатор слота для каждой записи. Странно то, что рейд сообщает о своем состоянии как об оптимальном, несмотря на ошибки носителя на диске. Тем не менее, я бы не стал доверять диску.

RAID 5, состоящий из n дисков одинакового размера, дает вам емкость (n-1) дисков, поскольку он хранит данные избыточности на один диск. Поэтому, если у вас есть шесть дисков по 250 ГБ и 1 Т полезного пространства, они, скорее всего, разделены на 5 дисков RAID 5 (что дает вам 4x250 ГБ полезного пространства) плюс 1 запасной диск.

фактически smartctl может предоставить вам подробную информацию о каждом диске в рейде MegaRaid. чтобы получить информацию о физическом диске # 0, запустите:

smartctl -a -d megaraid,0 /dev/sda|less

как правильно указывает Павел, скорее всего, это перераспределенные сектора, но у меня было несколько случаев, когда проблемы со связью [видимые в smartctl -l xerror -d megaraid, 5 / dev / sda] сообщались как Количество ошибок носителя.

Пока ваш массив запущен и работает, все должно быть в порядке. Счетчик ошибок носителя может увеличиваться из-за таких событий, как перераспределение отказавшего сектора на одном из дисков, в то время как счетчик других ошибок может быть увеличен из-за любого непроблематичного события (сброс устройства шины, цикл питания и т. Д.). Однако, если ошибка является критической, диск будет автоматически извлечен из массива контроллером и сообщен как неисправный, и в этом случае вам придется принять меры.

Было бы здорово, если бы smartctl мог предоставлять подробную информацию SMART о мегарайде и статусе отдельных единиц, но я не думаю, что он поддерживает это. На всякий случай попробуйте.

Иногда диски будут генерировать ошибки чтения, и, по моему опыту, обычно, когда это происходит, я могу запустить на нем «плохие блоки» для стресс-теста диска, и диск может сообщить о некоторых ошибках на раннем этапе, но затем, когда диск был немного нагружен он либо продолжит сообщать об ошибках, и в этом случае это плохо, либо не сообщит об ошибках.

Я полагал, что это произошло из-за того, что некоторые секторы диска являются маргинальными, а переназначение плохих блоков может сработать только тогда, когда вы записываете на диск, а не читаете с него. Если вы записываете данные в сектор, который выходит из строя, диск должен сообщить об ошибке при чтении, потому что, если он просто незаметно переназначит этот сектор на один из резервных секторов, он вернет вам неверные данные, а не ошибку. Но при записи, если он замечает, что сектор неисправен, он может записать эти данные в резервный сектор и переназначить его.

К сожалению, вы не можете очистить этот счетчик ошибок, поэтому, если у вас есть мониторинг, который сообщает об ошибках носителя, вам нужно либо заменить диск, либо сделать так, чтобы вы могли указать мониторингу игнорировать то или иное количество ошибок и сообщать только об их изменении. очередной раз.

Вы можете проверить статус SMART накопителя с помощью smartctl (спасибо, @pQd, я не знал об этом) с помощью:

MegaCli64 -PDList  -aALL | grep -e '^$' -e Slot -e Count
#  Find the slot number to use for "X".
#  For "Y" use the device name the system knows, such as "sda".
smartctl -a -d megaraid,X /dev/sdY

Вероятно, не совсем безосновательно восстановить диск и посмотреть, продолжают ли возникать проблемы. С MegaRAID вы можете сделать это с помощью следующих команд:

#  WARNING: Make sure the array is "Optimal" first, this will degrade it.
MegaCli64 -LDInfo -Lall -aALL | grep State
#  NOTE: This assumes drive 3 of enclosure 32 for adapter 0
MegaCli64 -PDOffline -PhysDrv [32:3] -a0
MegaCli64 -PDRbld -Start -PhysDrv [32:3] -a0

#  Now check the rebuild status until it completes:
MegaCli64 -PDRbld -ShowProg -PhysDrv [32:3] -a0

# And the array status should go back to Optimal
MegaCli64 -LDInfo -Lall -aALL | grep State

Раньше у меня диски постоянно выпадали из массива RAID (может быть, раз в месяц или два, на выборке от 100 до 200 дисков). Но после того, как я заменил их, диски стали не такими плохими.

Я начал записывать все диски перед их запуском в производство, используя «плохие блоки» примерно в течение недели, и после того, как я начал это делать, количество отсеиваемых массивов резко сократилось. Теперь это происходит, может быть, дважды в год на 500 дисках.

Это деструктивный тест, поэтому убедитесь, что у вас нет данных на диске:

badblocks -svw -p 5 /dev/sdX

Были "sdX" это устройство для тестирования. Будьте очень осторожны, выбор неправильного диска уничтожит ваши данные. Я запускаю свои тесты на автономном компьютере на своем тестовом стенде.