Может ли кто-нибудь описать, как дискретный датчик работает в мире IPMI?
В спецификации IPMI есть «датчики» для процессора и памяти дискретного типа.
Действительно ли существует объект SW / Firmware, который отслеживает память, скажем, на предмет ошибок ECC, а затем генерирует какое-то событие, если что-то происходит? Если да, то проводит ли IPMI фактическое тестирование для поиска ошибок ECC? Пытаемся понять, что происходит под крышками такого датчика.
В IPMI обычно есть два типа датчиков: пороговые и дискретные. Пороговый датчик - это, по сути, аналоговый датчик для измерения таких вещей, как температура, напряжение или скорость вращения вентилятора. Дискретный датчик - это просто двоичный датчик, который имеет только два состояния, например вкл / выкл, присутствует / отсутствует или NoError / Error. Эти датчики сгруппированы в одно 16-битное значение, которое следует интерпретировать как битовое поле. И да, это наименование - отстой, потому что оно предполагает совсем другое значение термина «дискретный».
Как этот датчик на самом деле работает, конечно, зависит от измеряемого объекта и конкретной реализации, но в случае ECC RAM, IPMI не будет (и не может!) Сам проверять наличие ошибок. Вместо этого одним из подходов к обнаружению этой ошибки было бы наблюдение за сигнальными линиями между модулями RAM и контроллером памяти, которые сообщают об ошибке ECC. Если он обнаруживает сигнал на этих линиях, интерфейс управления может генерировать событие ошибки IPMI, которое не зависит от обработки ошибок, выполняемой основным оборудованием и ОС. Другой подход состоит в том, чтобы контроллер памяти активно сообщал об этой ошибке интерфейсу управления.