S.M.A.R.T - прогнозируемое количество отказов

Я слежу за своим контроллером IBM ServeRAID M5015 для статуса RAID с помощью MegaCLI, у меня это на одном из дисков:

Enclosure Device ID: 252
Slot Number: 6
Enclosure position: 0
Device Id: 14
Sequence Number: 2
Media Error Count: 32
Other Error Count: 0
Predictive Failure Count: 18
Last Predictive Failure Event Seq Number: 8119
PD Type: SAS
Raw Size: 279.396 GB [0x22ecb25c Sectors]
Non Coerced Size: 278.896 GB [0x22dcb25c Sectors]
Coerced Size: 278.464 GB [0x22cee000 Sectors]
Firmware state: Online, Spun Up
SAS Address(0): 0x5000c50042c319c9
SAS Address(1): 0x0
Connected Port Number: 5(path0)
Inquiry Data: IBM-ESXSST9300653SS     B6336XN04HC10525B633
IBM FRU/CRU: 81Y9671
FDE Capable: Not Capable
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None
Device Speed: 6.0Gb/s
Link Speed: 6.0Gb/s
Media Type: Hard Disk Device
Drive:  Not Certified
Drive Temperature :33 Celsius

Что именно это означает? Я не могу найти точное описание, есть ли способ получить более подробную информацию? RAID-массив находится в Оптимальном состоянии.

Количество ошибок носителя: 32

Количество прогнозируемых отказов: 18

Есть ли способ через интерфейс командной строки включить передний светодиод, чтобы я физически знал, какой диск мне нужно заменить?

На вашем диске есть ошибки. УМНАЯ. означает Технология самоконтроля, анализа и отчетности

Конкретные ошибки, о которых вы упомянули, коррелируют с механической деградацией привода. Вы можете использовать этот отчет для получения гарантийной замены от IBM. Привод в конечном итоге БУДЕТ отказывать.

Из документа Seagate:

Прогнозируемые отказы

УМНАЯ. сигнализирует о прогнозируемых сбоях, когда привод работает неприемлемо в течение определенного периода времени. Микропрограммное обеспечение ведет текущий счет того, сколько раз частота ошибок для каждого атрибута является неприемлемой. Для этого значение счетчика увеличивается каждый раз, когда частота ошибок становится неприемлемой, и уменьшается (не превышая нуля) всякий раз, когда частота ошибок приемлема. Если счетчик постоянно увеличивается, достигая прогнозируемого порога, выдается сигнал прогнозируемого сбоя. Этот счетчик называется отказом.

Счетчик истории. Для каждого атрибута существует отдельный счетчик истории отказов.

Вот как найти неисправный диск:

MegaCli -PdLocate -start -physdrv\[E:S] -aA

E: Корпус
S: слот
A: Адаптер

В этот момент диск физически неисправен. Самое важное, о чем сейчас нужно беспокоиться, - это иметь хорошую резервную копию ваших данных и план по замене этого диска как можно скорее.