Назад | Перейти на главную страницу

Что означает «однобитовые ошибки ECC были обнаружены на RAID-контроллере»?

У меня есть Dell T7600 с RAID-контроллером Perc H710P и 4 подключенными дисками по 3 ТБ. За последние несколько месяцев RAID-контроллер периодически сообщал об ошибках при загрузке: «загрузочное устройство не найдено», «адаптер на базовом порту не отвечает», диски часто сообщались как отсутствующие или неисправные.

С тех пор я заменил RAID-контроллер, 4 жестких диска и, наконец, системную плату.

После замены материнской платы и нескольких перезагрузок я получил ошибку

Single bit ECC errors were detected on the RAID controller.
Please contact technical support to resolve this issue.

После перезагрузки еще примерно 20 раз я не видел ошибки ECC. В остальном система выглядит нормально, за исключением того факта, что вентиляторы диска иногда начинают дуть на полную мощность, когда система полностью простаивает, и не останавливаются, пока я не перезагружусь.

Есть ли ошибки ECC в памяти RAID-контроллера? Или контроллер RAID отображается в системной памяти, и ошибки ECC действительно находятся в системной памяти? Или ошибки ECC в кэше 1 ГБ, который находится в контроллере RAID?

Эта ошибка соответствует модулю кеширования на контроллере. На этом этапе вам, вероятно, потребуется заменить оперативную память или фактический контроллер PERC. Это должна быть стандартная гарантийная работа.

Сообщение рейд-контроллера «Обнаружена однобитовая ошибка» носит чисто информационный характер. Это не аппаратная ошибка и не надлежащее предупреждение для обращения к производителю за исправлением. Большинство общедоступной памяти (ОЗУ) действительно подвержены ошибкам случайным образом (за исключением военной техники). В вычислительной среде, в которой это неприемлемо, предлагается решение: ECC. Я считаю, что это самое дешевое и простое решение для обнаружения однобитовых ошибок и их исправления. Таким образом, критическая ошибка - это сообщение об ошибке, превышающее 1 бит. Для этого могут потребоваться другие методы, такие как «ChipKill» (чтобы аппаратная плата могла отключить чип, которому больше нельзя доверять). При обнаружении однобитового сообщения об ошибке обычно запускается обновление внутреннего аппаратного счетчика / реестра. Просто чтобы вести статистику. Но это не ошибки, оправдывающие замену оборудования. Вот почему ECC создан для.

Количество однобитовых ошибок может варьироваться. Я интересовался этой темой 16 лет. И я понял, что количество растет в геометрической прогрессии. Это значение коррелирует только с другим параметром: количеством времени, в течение которого система работает (часы работы). Два порога, которые заслуживают упоминания, - это 18 месяцев (рост экспоненциальной кривой) и 36 месяцев (начинают появляться две битовые ошибки). Остальные параметры были проанализированы, но корреляции нет: бренд, модели, «дешевые / дорогие товары», тепло, операции чтения / записи. Главное - время («часы работы»). Это также может указывать на использование стратегии «запланированного устаревания», применяемой к вычислительному оборудованию. Таким образом, капиталистическая система может потребовать обновления вычислительного оборудования каждые 3 года или до 6 лет (с добавлением бюджета на техническое обслуживание).

Вы также упоминаете другие ошибки, которые, как я считаю, не имеют прямого отношения к проблеме ECC (ваш вопрос).