Назад | Перейти на главную страницу

медленный файловый сервер с противоречивыми значениями для CPU и CPL наверху

У меня есть файловый сервер (centos 6.3), который сегодня внезапно замедлился. Кластер, который его монтирует, мог без проблем получить доступ к другим монтируемым NFS, но доступ к этому был ОЧЕНЬ медленным. Вход в систему через ssh тоже был очень медленным (а виртуальная консоль idrac не имела сигнала - возможно, другая проблема).

Запуск iostat -x 5 на сервере не выявил никаких проблем. 'await' был в основном 0, иногда до 2, а% util был в основном 0, иногда до 3, редко 5. Насколько я понимаю, это указывает на отсутствие очевидной проблемы с io?

Запуск поверх сервера не показал ничего необычного для меня, за исключением того, что средние значения CPL находились в диапазоне 14-17, тогда как загрузка ЦП всегда была между 100-200% из 3200% в течение примерно 30 минут, на которые я смотрел. вещи. наверху вывод ниже.

Вопрос о CPL, который может относиться к этому: система является гиперпоточной, поэтому показывает 32 процессора при наличии 16 физических ядер (2x8). Применяется ли CPL только к физическим ядрам или также к виртуальным ядрам с гиперпоточностью (если это термин)? CPL 14-17 должно подойти, если второе, но не первое. Но в любом случае я не понимаю, почему CPL так отличается от CPU.

Спасибо за любые мысли.

PRC |  sys   10.70s  |  user   0.18s  |  #proc   2846 |  #tslpu     9  |  #zombie    0  |  #exit      6  |
CPU |  sys     107%  |  user      2%  |  irq       0% |  idle   3094%  |  wait      0%  |  curscal   ?%  |
CPL |  avg1   14.86  |  avg5   17.50  |  avg15  17.52 |  csw     4265  |  intr   31460  |  numcpu    32  |
MEM |  tot    31.3G  |  free  128.6M  |  cache  25.2G |  dirty  94.9M  |  buff  165.6M  |  slab    2.1G  |
SWP |  tot     1.0G  |  free  960.8M  |               |                |  vmcom   5.4G  |  vmlim  16.6G  |
LVM |  rt-lv_export  |  busy      0%  |  read       0 |  write     35  |  MBw/s   0.02  |  avio 0.00 ms  |
DSK |           sda  |  busy      0%  |  read       0 |  write     10  |  MBw/s   0.01  |  avio 0.30 ms  |
DSK |           sdb  |  busy      0%  |  read       0 |  write     25  |  MBw/s   0.02  |  avio 0.00 ms  |
DSK |           sdc  |  busy      0%  |  read       0 |  write      9  |  MBw/s   0.00  |  avio 0.00 ms  |
NET |  transport     |  tcpi      25  |  tcpo      22 |  udpi       0  |  udpo       0  |  tcpao      0  |
NET |  network       |  ipi       37  |  ipo       27 |  ipfrw      0  |  deliv     25  |  icmpo      0  |
NET |  pem3      0%  |  pcki     299  |  pcko       0 |  si   16 Kbps  |  so    0 Kbps  |  erro       0  |
NET |  pem1  0%  |  pcki      57  |  pcko      12 |  si    3 Kbps  |  so    1 Kbps  |  erro       0  |
NET |  em1     ----  |  pcki      57  |  pcko      12 |  si    2 Kbps  |  so    1 Kbps  |  erro       0  |

  PID   TID RUID      THR  SYSCPU  USRCPU  VGROW  RGROW   RDDSK  WRDSK ST EXC S CPUNR  CPU CMD         1/3
20539     - root        1   1.09s   0.00s     0K     0K      0K     0K --   - D     7  11% nfsd
20544     - root        1   1.01s   0.00s     0K     0K      0K     0K --   - D     1  10% nfsd
  356     - root        1   0.99s   0.00s     0K     0K      0K     0K --   - D    25  10% kswapd1
20545     - root        1   0.93s   0.00s     0K     0K      0K     0K --   - R     2   9% nfsd
20546     - root        1   0.93s   0.00s     0K     0K      0K     0K --   - D     4   9% nfsd
  355     - root        1   0.90s   0.00s     0K     0K      0K     0K --   - R    22   9% kswapd0
20540     - root        1   0.87s   0.00s     0K     0K      0K     0K --   - D    26   9% nfsd
20541     - root        1   0.86s   0.00s     0K     0K      0K     0K --   - D    30   9% nfsd
 1170     - root        1   0.84s   0.00s     0K     0K      0K     0K --   - D     6   8% cook-news
20542     - root        1   0.83s   0.00s     0K     0K      0K     0K --   - D    22   8% nfsd
20543     - root        1   0.83s   0.00s     0K     0K      0K     0K --   - D     6   8% nfsd
  536     - root        1   0.40s   0.14s     0K     0K      0K     0K --   - R    19   5% atop
 1650     - root        0   0.16s   0.04s     0K     0K       -      - NE   1 E     -   2% <ps>
 5798     - root       47   0.01s   0.00s     0K     0K      0K     4K --   - S    13   0% dsm_om_connsvc
 4944     - root        1   0.01s   0.00s     0K     0K      0K     0K --   - S    13   0% snmpd
  138     - root        1   0.01s   0.00s     0K     0K      0K     0K --   - S     7   0% events/7
  139     

CPL - это средние значения нагрузки, отражающие количество потоков, доступных для выполнения на ЦП (т.е. часть очереди выполнения) или ожидающих ввода-вывода на диск. Кажется, у вас есть ~ 16 процессов, которые, кажется, ждут диска. Вот почему вы видите, что ЦП в основном простаивает, ему нечего делать, кроме ожидания диска.

Я бы проверил диски этой системы, проверил бы dmesg на наличие ошибок диска, атрибуты smartctl и журнал, а также провел бы короткую самопроверку. Я думаю, что это может быть ваша проблема, поскольку скорость чтения и записи диска очень низкая.

Возможно, рейд запущен в деградированном режиме или реконструируется.