У меня есть 2 сервера HPE Proliant DL360 Gen10, которые настроены почти одинаково. Оба они работают под управлением CentOS 7.5. Единственное отличие состоит в том, что у вас есть более новая прошивка и ядро, в попытке решить эту проблему.
dmesg
неоднократно сообщает следующее, и производительность сервера снижается.
[Oct12 11:43] CPU5: Package temperature above threshold, cpu clock throttled (total events = 539077151)
[ +0.000001] CPU1: Package temperature above threshold, cpu clock throttled (total events = 539077144)
[ +0.000003] CPU4: Package temperature above threshold, cpu clock throttled (total events = 539077179)
[ +0.000002] CPU7: Package temperature above threshold, cpu clock throttled (total events = 539077201)
[ +0.000001] CPU3: Package temperature above threshold, cpu clock throttled (total events = 539077211)
[ +0.000004] CPU6: Package temperature above threshold, cpu clock throttled (total events = 539077197)
[ +0.000001] CPU2: Package temperature above threshold, cpu clock throttled (total events = 539077208)
[ +0.000001] CPU0: Package temperature above threshold, cpu clock throttled (total events = 539077122)
[Oct12 11:44] CPU6: Core temperature above threshold, cpu clock throttled (total events = 447115263)
[ +0.000001] CPU2: Core temperature above threshold, cpu clock throttled (total events = 447115267)
[ +0.002025] CPU6: Core temperature/speed normal
HP iLO сообщает, что на ~ 30C меньше, чем sensors
сообщает.
coretemp-isa-0000
Adapter: ISA adapter
Package id 0: +95.0°C (high = +86.0°C, crit = +96.0°C)
Core 0: +95.0°C (high = +86.0°C, crit = +96.0°C)
Core 2: +95.0°C (high = +86.0°C, crit = +96.0°C)
Core 3: +95.0°C (high = +86.0°C, crit = +96.0°C)
Core 4: +94.0°C (high = +86.0°C, crit = +96.0°C)
Интерфейс HPE iLO сообщает, что температура ЦП 55 ° C в то же время, когда снимаются показания датчиков.
Когда я бегу sensors
, Я получаю следующее в dmesg
:
[Oct12 11:46] ACPI Error: SMBus/IPMI/GenericSerialBus write requires Buffer of length 66, found length 32 (20180313/exfield-393)
[ +0.000726] ACPI Error: Method parse/execution failed \_SB.PMI0._PMM, AE_AML_BUFFER_LIMIT (20180313/psparse-516)
[ +0.000500] ACPI Error: AE_AML_BUFFER_LIMIT, Evaluating _PMM (20180313/power_meter-338)
Я обновился до последней версии ядра (4.18.13-1.el7.elrepo.x86_64
) сегодня утром, и это тоже не помогло.
Откройте системный журнал IML в веб-интерфейсе МОТ и посмотрите, о каких событиях он сообщает.
Это надежный способ проверить состояние оборудования на серверном оборудовании HPE.
Термомониторинг Intel может приводить к различным "температурам" в зависимости от того, какой интерфейс / MSR вы используете. Кроме того, разные процессоры могут иметь разные пороги в зависимости от производства.
Возможно, также захочется пошалить с некоторыми настройками температуры в UEFI. Есть параметры «Максимальное охлаждение», которые могут помешать достижению порогового значения.
Наконец, обратите внимание на используемые вами дополнительные карты и посмотрите, повлияет ли это на них. Карты ввода-вывода могут вызвать сбой теплового мониторинга, заставляя ПО FW / OS думать, что система находится в состоянии теплового повреждения.
В основном я смог решить эту проблему, обновив ядро в ОС. Сейчас я использую 4.18.13-1.el7.elrepo.x86_64, и температура отображается иначе, чем в пользовательском интерфейсе iLO, но соотношение между температурой процессора и «высоким» намного лучше и лучше согласуется с соотношениями iLO.
coretemp-isa-0000
Adapter: ISA adapter
Package id 0: +74.0°C (high = +86.0°C, crit = +96.0°C)
Core 0: +72.0°C (high = +86.0°C, crit = +96.0°C)
Core 2: +72.0°C (high = +86.0°C, crit = +96.0°C)
Core 3: +74.0°C (high = +86.0°C, crit = +96.0°C)
Core 4: +71.0°C (high = +86.0°C, crit = +96.0°C)