Назад | Перейти на главную страницу

Температура упаковки выше порогового значения, частота процессора снижена

У меня есть 2 сервера HPE Proliant DL360 Gen10, которые настроены почти одинаково. Оба они работают под управлением CentOS 7.5. Единственное отличие состоит в том, что у вас есть более новая прошивка и ядро, в попытке решить эту проблему.

dmesg неоднократно сообщает следующее, и производительность сервера снижается.

[Oct12 11:43] CPU5: Package temperature above threshold, cpu clock throttled (total events = 539077151)
[  +0.000001] CPU1: Package temperature above threshold, cpu clock throttled (total events = 539077144)
[  +0.000003] CPU4: Package temperature above threshold, cpu clock throttled (total events = 539077179)
[  +0.000002] CPU7: Package temperature above threshold, cpu clock throttled (total events = 539077201)
[  +0.000001] CPU3: Package temperature above threshold, cpu clock throttled (total events = 539077211)
[  +0.000004] CPU6: Package temperature above threshold, cpu clock throttled (total events = 539077197)
[  +0.000001] CPU2: Package temperature above threshold, cpu clock throttled (total events = 539077208)
[  +0.000001] CPU0: Package temperature above threshold, cpu clock throttled (total events = 539077122)
[Oct12 11:44] CPU6: Core temperature above threshold, cpu clock throttled (total events = 447115263)
[  +0.000001] CPU2: Core temperature above threshold, cpu clock throttled (total events = 447115267)
[  +0.002025] CPU6: Core temperature/speed normal

HP iLO сообщает, что на ~ 30C меньше, чем sensors сообщает.

coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +95.0°C  (high = +86.0°C, crit = +96.0°C)
Core 0:        +95.0°C  (high = +86.0°C, crit = +96.0°C)
Core 2:        +95.0°C  (high = +86.0°C, crit = +96.0°C)
Core 3:        +95.0°C  (high = +86.0°C, crit = +96.0°C)
Core 4:        +94.0°C  (high = +86.0°C, crit = +96.0°C)

Интерфейс HPE iLO сообщает, что температура ЦП 55 ° C в то же время, когда снимаются показания датчиков.

Когда я бегу sensors, Я получаю следующее в dmesg:

[Oct12 11:46] ACPI Error: SMBus/IPMI/GenericSerialBus write requires Buffer of length 66, found length 32 (20180313/exfield-393)
[  +0.000726] ACPI Error: Method parse/execution failed \_SB.PMI0._PMM, AE_AML_BUFFER_LIMIT (20180313/psparse-516)
[  +0.000500] ACPI Error: AE_AML_BUFFER_LIMIT, Evaluating _PMM (20180313/power_meter-338)

Я обновился до последней версии ядра (4.18.13-1.el7.elrepo.x86_64) сегодня утром, и это тоже не помогло.

Откройте системный журнал IML в веб-интерфейсе МОТ и посмотрите, о каких событиях он сообщает.

Это надежный способ проверить состояние оборудования на серверном оборудовании HPE.

Термомониторинг Intel может приводить к различным "температурам" в зависимости от того, какой интерфейс / MSR вы используете. Кроме того, разные процессоры могут иметь разные пороги в зависимости от производства.

Возможно, также захочется пошалить с некоторыми настройками температуры в UEFI. Есть параметры «Максимальное охлаждение», которые могут помешать достижению порогового значения.

Наконец, обратите внимание на используемые вами дополнительные карты и посмотрите, повлияет ли это на них. Карты ввода-вывода могут вызвать сбой теплового мониторинга, заставляя ПО FW / OS думать, что система находится в состоянии теплового повреждения.

В основном я смог решить эту проблему, обновив ядро ​​в ОС. Сейчас я использую 4.18.13-1.el7.elrepo.x86_64, и температура отображается иначе, чем в пользовательском интерфейсе iLO, но соотношение между температурой процессора и «высоким» намного лучше и лучше согласуется с соотношениями iLO.

coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +74.0°C  (high = +86.0°C, crit = +96.0°C)
Core 0:        +72.0°C  (high = +86.0°C, crit = +96.0°C)
Core 2:        +72.0°C  (high = +86.0°C, crit = +96.0°C)
Core 3:        +74.0°C  (high = +86.0°C, crit = +96.0°C)
Core 4:        +71.0°C  (high = +86.0°C, crit = +96.0°C)