Назад | Перейти на главную страницу

Пороги AMD Tctl Margin не имеют смысла

У меня были проблемы с журналом событий BMC / IPMI, регистрирующим ошибки перегрева (в некоторых случаях критические) для ЦП. Меня беспокоит, что это в основном ложные срабатывания и что дефолт пороги датчика, установленные на BMC, неверны.

Оборудование: RS924A-E6 / RS8 с 4 процессорами AMD 6376 - процессоры AMD обеспечивают Запас температурного контроля (Tctl Margin) вместо необработанного показания температуры. Мое понимание Маржа Tctl в том, что это обратная шкала от 0..255 Посредством чего 0 представляет собой максимальную рабочую температуру процессора (69 Celsius в таком случае). По сути, чем ближе мы подходим к 0, чем горячее процессор физически - подробнее Вот.

Данные: В двух таблицах ниже представлена ​​информация о пороговых значениях и зарегистрированных событиях.

Пороги датчика:

ID | Name             | Type         | Reading    | Units       | Lower NR   | Lower C    | Lower NC   | Upper NC   | Upper C    | Upper NR   | Event
1  | CPU1 Tctl Margin | Temperature  | 26.00      | unspecified | -10.00     | -5.00      | 0.00       | 127.00     | 127.00     | 127.00     | 'OK'
2  | CPU2 Tctl Margin | Temperature  | 26.00      | unspecified | -10.00     | -5.00      | 0.00       | 127.00     | 127.00     | 127.00     | 'OK'

Журнал событий:

ID | Date        | Time     | Name             | Type         | Event
1  | Mar-28-2017 | 17:25:45 | CPU1 Tctl Margin | Temperature  | Upper Non-recoverable - going low ; Sensor Reading = 31.00 unspecified ; Threshold = 127.00 unspecified
2  | Apr-09-2017 | 10:12:38 | CPU1 Tctl Margin | Temperature  | Upper Non-recoverable - going low ; Sensor Reading = 24.00 unspecified ; Threshold = 127.00 unspecified

Как вы можете видеть в таблице выше, CPU1 обычно страдает Верхний невосстановимый температурная погрешность. Я смущен тем, что эта ошибка возникает в чтение датчика из 24 (или 31) но порог является 127. Может ли BMC неправильно интерпретировать показания датчика или пороговые значения неверны? Что я могу сделать, чтобы это исправить?

Я считаю, что вы неправильно истолковываете текст. «Понижение» означает, что температура была выше 127, но теперь ниже. Что кажется правильным с учетом указанных выше пороговых значений.

Я предполагаю, что не будет и никаких «кайфовых» событий. Возможно, материнская плата просто не сообщает об этих событиях, поскольку они должны быть «нормальными».