Назад | Перейти на главную страницу

ksoftirqd и события обрабатывают высокую загрузку процессора

Centos 6.9 (64 ГБ ОЗУ)

Запуск nginx, mariadb, php-fpm, iptables, java

На сервере случаются случайные, но частые всплески 100% загрузки процессора только на 1 ядро, что нарушает сетевые соединения с сервером.

Я обнаружил, что даже если nginx, mariadb, php-fpm, iptables и java не работают, проблема сохраняется.

Я попытался установить irqbalance, но ничего не изменилось. Я пытался перезапустить несколько раз, но ничего не изменилось. Я попробовал обновить yum, но ничего не изменилось. Я попытался заменить ssd на другой сервер с тем же оборудованием, но ничего не изменилось. Я пробовал SMART проверять ssd на наличие проблем без ошибок. Я проверил, связана ли проблема с подкачкой, но ничего не меняется.

"/ Proc / interrupts" показывает, что прерывание, связанное с ksoftirqd, - это eth0. Я не знаю, какие шаги предпринять для устранения причины проблемы. Мне нужна помощь, так как мои сервисы, размещенные на этом сервере, сильно пострадали из-за простоев, возникающих во время всплесков (которые могут длиться 10-15 минут, останавливаться, а затем появляться случайным образом).

top или htop не показывают ничего тревожного при запуске или использовании такого количества процессора, только ksoftirqd и события.

Проблема началась всего несколько дней назад, в ядро ​​/ ОС не было внесено никаких изменений, которые, как мне известно, могли вызвать эту проблему.

«iostat» при 100% нагрузке

Linux 2.6.32-696.30.1.el6.x86_64 (CentOS-69-64-minimal) _x86_64_ (16 CPU)
avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           8.01    0.00    3.03    0.20    0.00   88.76
Device:            tps   Blk_read/s   Blk_wrtn/s   Blk_read   Blk_wrtn
sdb              83.52        18.46      1341.05    2874477  208769462
sda              94.26       435.50      1341.05   67797010  208769462
md1               0.00         0.01         0.00       2106         12
md0               0.26         0.25         1.82      38640     283096
md2             176.32       453.67      1322.56   70625762  205890864

"/ proc / interrupts" при 100% загрузке

            CPU0       CPU1       CPU2       CPU3       CPU4       CPU5       CPU6       CPU7       CPU8       CPU9       CPU10      CPU11      CPU12      CPU13      CPU14      CPU15
   0:        681          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   IO-APIC-edge      timer
   1:          2          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   IO-APIC-edge      i8042
   8:          1          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   IO-APIC-edge      rtc0
   9:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   IO-APIC-fasteoi   acpi
  12:          4          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   IO-APIC-edge      i8042
  56:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   PCI-MSI-edge      aerdrv
  57:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   PCI-MSI-edge      aerdrv
  58:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   PCI-MSI-edge      aerdrv
  65:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
  66:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
  67:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
  68:   16149263          0          0          0          0          0          0          0          0          0          0   19021454          0          0          0          0   PCI-MSI-edge      ahci
  69:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   PCI-MSI-edge      ahci
  70:  158827141          0          0          0   82558205          0          0          0          0          0    2755343          0          0          0          0          0   PCI-MSI-edge      eth0
 NMI:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   Non-maskable interrupts
 LOC:  123773684  105894389  123476055  142376826  111487788  122494116  118841739  134480148  113422196  121203288  114414525  114218214  114794017  119322938  115083581  119549111   Local timer interrupts
 SPU:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   Spurious interrupts
 PMI:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   Performance monitoring interrupts
 IWI:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   IRQ work interrupts
 RES:   54086898   67527262   46597734   44323475   25356657   32869325   18540932   20137227   13606660   13955101   14826738   12242106   10962617   11082631   10466998   10574150   Rescheduling interrupts
 CAL:       1258       1407       1440       1446       1474       1442       1448       1436       1436       1435       1435       1431       1438       1449       1449       1430   Function call interrupts
 TLB:    8082115    6419817    4992332    3914962    5927373    4081295    4056598    2953591    4134873    3207107    3852793    5106863    3780341    3298234    3875200    3270066   TLB shootdowns
 TRM:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   Thermal event interrupts
 THR:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   Threshold APIC interrupts
 MCE:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   Machine check exceptions
 MCP:        520        520        520        520        520        520        520        520        520        520        520        520        520        520        520        520   Machine check polls
 ERR:          0
 MIS:          0

Что-то странное я видел в dmesg, который не печатает ничего проблемного, кроме этой строки, повторяющейся 50 раз с момента загрузки (заменил мой ip на X из соображений конфиденциальности):

TCP: Peer X.XX.XXX.XXX:56847/44567 unexpectedly shrunk window 2670303830:2670305282 (repaired)

htop

https://i.imgur.com/2vlcsN8.png

Приветствуется любая помощь, я действительно отчаянно пытаюсь решить эту проблему прямо сейчас.

этот ksoftirqd не является ошибкой сервера, проблема с почтой связана с версией ядра, пожалуйста, проверьте версию ядра Linux localhost 2.6.32-Linux localhost 2.6.32-573.6.3.el6.x86_64_64, используя их без проблем, если вы обновляете ядро, которое идет на 754, в то время как некоторые модули perl и asterisk дают сбой, поэтому загрузка процессора становится высокой на всех серверах centos 6.10, вы можете использовать версии ядра на 600 ниже, что лучше всего спасибо.