У меня были проблемы с журналом событий BMC / IPMI, регистрирующим ошибки перегрева (в некоторых случаях критические) для ЦП. Меня беспокоит, что это в основном ложные срабатывания и что дефолт пороги датчика, установленные на BMC, неверны.
Оборудование: RS924A-E6 / RS8 с 4 процессорами AMD 6376 - процессоры AMD обеспечивают Запас температурного контроля (Tctl Margin) вместо необработанного показания температуры. Мое понимание Маржа Tctl в том, что это обратная шкала от 0..255
Посредством чего 0
представляет собой максимальную рабочую температуру процессора (69 Celsius
в таком случае). По сути, чем ближе мы подходим к 0
, чем горячее процессор физически - подробнее Вот.
Данные: В двух таблицах ниже представлена информация о пороговых значениях и зарегистрированных событиях.
Пороги датчика:
ID | Name | Type | Reading | Units | Lower NR | Lower C | Lower NC | Upper NC | Upper C | Upper NR | Event
1 | CPU1 Tctl Margin | Temperature | 26.00 | unspecified | -10.00 | -5.00 | 0.00 | 127.00 | 127.00 | 127.00 | 'OK'
2 | CPU2 Tctl Margin | Temperature | 26.00 | unspecified | -10.00 | -5.00 | 0.00 | 127.00 | 127.00 | 127.00 | 'OK'
Журнал событий:
ID | Date | Time | Name | Type | Event
1 | Mar-28-2017 | 17:25:45 | CPU1 Tctl Margin | Temperature | Upper Non-recoverable - going low ; Sensor Reading = 31.00 unspecified ; Threshold = 127.00 unspecified
2 | Apr-09-2017 | 10:12:38 | CPU1 Tctl Margin | Temperature | Upper Non-recoverable - going low ; Sensor Reading = 24.00 unspecified ; Threshold = 127.00 unspecified
Как вы можете видеть в таблице выше, CPU1
обычно страдает Верхний невосстановимый температурная погрешность. Я смущен тем, что эта ошибка возникает в чтение датчика из 24
(или 31
) но порог является 127
. Может ли BMC неправильно интерпретировать показания датчика или пороговые значения неверны? Что я могу сделать, чтобы это исправить?
Я считаю, что вы неправильно истолковываете текст. «Понижение» означает, что температура была выше 127, но теперь ниже. Что кажется правильным с учетом указанных выше пороговых значений.
Я предполагаю, что не будет и никаких «кайфовых» событий. Возможно, материнская плата просто не сообщает об этих событиях, поскольку они должны быть «нормальными».