Назад | Перейти на главную страницу

HP DL380 G5 - Smart Array P400 - Linux зависает при высокой нагрузке случайным образом

Вот уже 2-3 недели мой основной сервер зависает без видимых причин. До этого работал без проблем более 4 месяцев подряд. Каждый раз простая перезагрузка решает проблему.

Текущая настройка:

Я оставляю сервер с открытым и запущенным PuTTy, когда он зависает (от 1 до 3 раз в день), я вижу высокую нагрузку, около 60, все веб-сервисы (HTTP, DNS, SMTP, IMAP, POP3 и т. Д.) ) не отвечают. При подключении к PuTTy я могу войти в систему, но приглашение никогда не появляется, то же самое в локальном приглашении (клавиатура + экран). Кроме того, я видел, что зеленые светодиоды на дисках одновременно мигают с частотой примерно 0,5 Гц - 1 Гц (обычно они мигают намного быстрее и в случайном порядке).

Сначала я подозревал DDoS-атаки и т. Д., Добавил множество проверок fail2ban, ограничения TCP-запросов внешнего брандмауэра и т. Д. После того, как я проверил версии прошивок (включая P400), обновил все до последних версий, проблема все еще возникает. Я также синхронизировал root с другим DL380 G5 (такое же оборудование, кроме 4 дисков по 450 ГБ), чтобы заменить сервер, снова та же проблема.

Я проверил, используя top, iostat, iotop, все еще не знаю. Когда нагрузка высока, загрузка ЦП практически отсутствует (вверху) и отсутствует активность диска (iostat).

Теперь мне интересно, может ли драйвер CCISS иметь проблему в версии, которую я использую?

Вот некоторая информация, которая может быть полезна:

Детали контроллера:

root@hyperion:~# hpapucli

=> ctrl all show status

Smart Array P400 in Slot 1
Controller Status: OK
Cache Status: OK
Battery/Capacitor Status: OK

=> ctrl all show detail

Smart Array P400 in Slot 1
Bus Interface: PCI
Slot: 1
Serial Number: P61620G9SVM38V
Cache Serial Number: PA2270H9SVI198
RAID 6 (ADG) Status: Enabled
Controller Status: OK
Hardware Revision: D
Firmware Version: 6.86
Rebuild Priority: Medium
Expand Priority: Medium
Surface Scan Delay: 15 secs
Surface Scan Mode: Idle
Wait for Cache Room: Disabled
Surface Analysis Inconsistency Notification: Disabled
Post Prompt Timeout: 0 secs
Cache Board Present: True
Cache Status: OK
Cache Ratio: 25% Read / 75% Write
Drive Write Cache: Disabled
Total Cache Size: 512 MB
Total Cache Memory Available: 464 MB
No-Battery Write Cache: Disabled
Cache Backup Power Source: Batteries
Battery/Capacitor Count: 1
Battery/Capacitor Status: OK
SATA NCQ Supported: True

=> ctrl all show config

Smart Array P400 in Slot 1 (sn: P61620G9SVM38V)

array A (SAS, Unused Space: 0 MB)


logicaldrive 1 (838.3 GB, RAID 1+0, OK)

physicaldrive 2I:1:1 (port 2I:box 1:bay 1, SAS, 450 GB, OK)
physicaldrive 2I:1:2 (port 2I:box 1:bay 2, SAS, 450 GB, OK)
physicaldrive 2I:1:3 (port 2I:box 1:bay 3, SAS, 450 GB, OK)
physicaldrive 2I:1:4 (port 2I:box 1:bay 4, SAS, 450 GB, OK)

Сведения о драйвере:

root@hyperion:~# modinfo cciss
filename: /lib/modules/3.2.29/kernel/drivers/block/cciss.ko
license: GPL
version: 3.6.26
description: Driver for HP Smart Array Controllers
author: Hewlett-Packard Company
srcversion: D553A90CDE37829B37A9C27
alias: pci:v0000103Cd00003230sv0000103Csd0000323Dbc*sc*i*
alias: pci:v0000103Cd00003230sv0000103Csd00003237bc*sc*i*
alias: pci:v0000103Cd00003238sv0000103Csd00003215bc*sc*i*
alias: pci:v0000103Cd00003238sv0000103Csd00003214bc*sc*i*
alias: pci:v0000103Cd00003238sv0000103Csd00003213bc*sc*i*
alias: pci:v0000103Cd00003238sv0000103Csd00003212bc*sc*i*
alias: pci:v0000103Cd00003238sv0000103Csd00003211bc*sc*i*
alias: pci:v0000103Cd00003230sv0000103Csd00003235bc*sc*i*
alias: pci:v0000103Cd00003230sv0000103Csd00003234bc*sc*i*
alias: pci:v0000103Cd00003230sv0000103Csd00003223bc*sc*i*
alias: pci:v0000103Cd00003220sv0000103Csd00003225bc*sc*i*
alias: pci:v00000E11d00000046sv00000E11sd0000409Dbc*sc*i*
alias: pci:v00000E11d00000046sv00000E11sd0000409Cbc*sc*i*
alias: pci:v00000E11d00000046sv00000E11sd0000409Bbc*sc*i*
alias: pci:v00000E11d00000046sv00000E11sd0000409Abc*sc*i*
alias: pci:v00000E11d00000046sv00000E11sd00004091bc*sc*i*
alias: pci:v00000E11d0000B178sv00000E11sd00004083bc*sc*i*
alias: pci:v00000E11d0000B178sv00000E11sd00004082bc*sc*i*
alias: pci:v00000E11d0000B178sv00000E11sd00004080bc*sc*i*
alias: pci:v00000E11d0000B060sv00000E11sd00004070bc*sc*i*
depends:
intree: Y
vermagic: 3.2.29 SMP mod_unload
parm: cciss_tape_cmds:number of commands to allocate for tape devices (default: 6) (int)
parm: cciss_simple_mode:Use 'simple mode' rather than 'performant mode' (int)

максимальная мощность при зависании

top - 10:39:45 up 43 min,  2 users,  load average: 24.58, 7.14, 2.88
Tasks: 282 total,   1 running, 281 sleeping,   0 stopped,   0 zombie
Cpu(s):  0.0%us,  0.0%sy,  0.0%ni, 99.9%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:  32894436k total, 17964512k used, 14929924k free,    97732k buffers
Swap:        0k total,        0k used,        0k free, 10694424k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
 3928 root      20   0 37164 2988 2444 S    0  0.0   0:00.41 sshd
 4478 root      20   0 17608 1540 1060 R    0  0.0   0:07.62 top
    1 root      20   0  4316  696  600 S    0  0.0   0:00.98 init
    2 root      20   0     0    0    0 S    0  0.0   0:00.00 kthreadd
    3 root      20   0     0    0    0 S    0  0.0   0:00.01 ksoftirqd/0
    5 root      20   0     0    0    0 S    0  0.0   0:00.02 kworker/u:0
    6 root      RT   0     0    0    0 S    0  0.0   0:00.00 migration/0
    7 root      RT   0     0    0    0 S    0  0.0   0:00.00 migration/1
    9 root      20   0     0    0    0 S    0  0.0   0:00.00 ksoftirqd/1
   11 root      RT   0     0    0    0 S    0  0.0   0:00.00 migration/2
   13 root      20   0     0    0    0 S    0  0.0   0:00.00 ksoftirqd/2
   14 root      RT   0     0    0    0 S    0  0.0   0:00.00 migration/3
   16 root      20   0     0    0    0 S    0  0.0   0:00.00 ksoftirqd/3
   17 root      RT   0     0    0    0 S    0  0.0   0:00.00 migration/4
   19 root      20   0     0    0    0 S    0  0.0   0:00.01 ksoftirqd/4
   20 root      RT   0     0    0    0 S    0  0.0   0:00.00 migration/5
   22 root      20   0     0    0    0 S    0  0.0   0:00.01 ksoftirqd/5
   23 root      RT   0     0    0    0 S    0  0.0   0:00.00 migration/6
   25 root      20   0     0    0    0 S    0  0.0   0:00.00 ksoftirqd/6
   26 root      RT   0     0    0    0 S    0  0.0   0:00.00 migration/7
   28 root      20   0     0    0    0 S    0  0.0   0:00.00 ksoftirqd/7
   29 root       0 -20     0    0    0 S    0  0.0   0:00.00 cpuset
   30 root       0 -20     0    0    0 S    0  0.0   0:00.00 khelper
   31 root      20   0     0    0    0 S    0  0.0   0:00.00 kdevtmpfs
   32 root       0 -20     0    0    0 S    0  0.0   0:00.00 netns
   33 root      20   0     0    0    0 S    0  0.0   0:00.00 kworker/u:1
  495 root      20   0     0    0    0 D    0  0.0   0:05.24 sync_supers
  497 root      20   0     0    0    0 S    0  0.0   0:00.00 bdi-default
  499 root       0 -20     0    0    0 S    0  0.0   0:00.00 kblockd
  654 root       0 -20     0    0    0 S    0  0.0   0:00.00 ata_sff
  661 root      20   0     0    0    0 S    0  0.0   0:00.00 khubd
  667 root       0 -20     0    0    0 S    0  0.0   0:00.00 md
  676 root      20   0     0    0    0 S    0  0.0   0:00.40 kworker/3:1
  677 root      20   0     0    0    0 S    0  0.0   0:00.12 kworker/4:1
  678 root      20   0     0    0    0 S    0  0.0   0:00.65 kworker/5:1
  679 root      20   0     0    0    0 S    0  0.0   0:00.16 kworker/6:1
  680 root      20   0     0    0    0 S    0  0.0   0:00.21 kworker/7:1
  774 root       0 -20     0    0    0 S    0  0.0   0:00.00 rpciod
  826 root      20   0     0    0    0 S    0  0.0   0:00.00 khungtaskd
  832 root      20   0     0    0    0 S    0  0.0   0:00.00 kswapd0

DL380 G6 с переходом на P410i

Я также пробовал с другим сервером HP, перемещая жесткие диски напрямую и меняя /dev/cciss/c0d0* по /dev/sda* в /etc/fstab и /etc/lilo.conf, все та же проблема.

Детали контроллера:

Примечание: Да, кеш отключен, у меня сейчас просто нет батареи для этого сервера.

root@hyperion:~# modprobe sg
root@hyperion:~# hpacucli ctrl all show detail

Smart Array P410i in Slot 0 (Embedded)
   Bus Interface: PCI
   Slot: 0
   Serial Number: 50123456789ABCDE
   Cache Serial Number: PAAVP9VYBAU0
   RAID 6 (ADG) Status: Disabled
   Controller Status: OK
   Hardware Revision: C
   Firmware Version: 6.64
   Rebuild Priority: Medium
   Expand Priority: Medium
   Surface Scan Delay: 15 secs
   Surface Scan Mode: Idle
   Queue Depth: Automatic
   Monitor and Performance Delay: 60  min
   Elevator Sort: Enabled
   Degraded Performance Optimization: Disabled
   Inconsistency Repair Policy: Disabled
   Wait for Cache Room: Disabled
   Surface Analysis Inconsistency Notification: Disabled
   Post Prompt Timeout: 0 secs
   Cache Board Present: True
   Cache Status: OK
   Cache Ratio: 100% Read / 0% Write
   Drive Write Cache: Disabled
   Total Cache Size: 512 MB
   Total Cache Memory Available: 400 MB
   No-Battery Write Cache: Disabled
   Battery/Capacitor Count: 0
   SATA NCQ Supported: True

Сведения о драйвере:

root@hyperion:~# modinfo hpsa
filename:       /lib/modules/3.2.29/kernel/drivers/scsi/hpsa.ko
license:        GPL
version:        2.0.2-1
description:    Driver for HP Smart Array Controller version 2.0.2-1
author:         Hewlett-Packard Company
srcversion:     624DA19A5286F6BDA1645F3
alias:          pci:v0000103Cd*sv*sd*bc01sc04i*
alias:          pci:v0000103Cd0000323Bsv0000103Csd00003356bc*sc*i*
alias:          pci:v0000103Cd0000323Bsv0000103Csd00003355bc*sc*i*
alias:          pci:v0000103Cd0000323Bsv0000103Csd00003354bc*sc*i*
alias:          pci:v0000103Cd0000323Bsv0000103Csd00003353bc*sc*i*
alias:          pci:v0000103Cd0000323Bsv0000103Csd00003352bc*sc*i*
alias:          pci:v0000103Cd0000323Bsv0000103Csd00003351bc*sc*i*
alias:          pci:v0000103Cd0000323Bsv0000103Csd00003350bc*sc*i*
alias:          pci:v0000103Cd0000323Asv0000103Csd00003233bc*sc*i*
alias:          pci:v0000103Cd0000323Asv0000103Csd0000324Bbc*sc*i*
alias:          pci:v0000103Cd0000323Asv0000103Csd0000324Abc*sc*i*
alias:          pci:v0000103Cd0000323Asv0000103Csd00003249bc*sc*i*
alias:          pci:v0000103Cd0000323Asv0000103Csd00003247bc*sc*i*
alias:          pci:v0000103Cd0000323Asv0000103Csd00003245bc*sc*i*
alias:          pci:v0000103Cd0000323Asv0000103Csd00003243bc*sc*i*
alias:          pci:v0000103Cd0000323Asv0000103Csd00003241bc*sc*i*
depends:
intree:         Y
vermagic:       3.2.29 SMP mod_unload
parm:           hpsa_allow_any:Allow hpsa driver to access unknown HP Smart Array hardware (int)
parm:           hpsa_simple_mode:Use 'simple mode' rather than 'performant mode' (int)

Возможная причина

Вчера, проводя тесты на разных процессах, отключил postfix и сервер перестал висеть. Как только я запустил снова, сервер завис. Похоже, это неправильная конфигурация или подозрительные SMTP-запросы.

Серия серверов HP ProLiant G5 - это довольно старое оборудование, которое со всех разумных точек зрения не обслуживается. Срок службы этого оборудования истек в 2009 году.

Однако, если вы не против отсутствия поддержки и того факта, что система старше четырех поколений, сервер все еще может работать.

В вашей ситуации вы работаете с плохая ревизия прошивки на RAID-контроллере. Я рекомендую вам обновить прошивку вашего RAID-контроллера до самый последний выпуск (2012 г.).

Обычно это можно сделать из операционной системы, но Slackware также полностью не поддерживается HP. Если вы найдете способ обновить прошивку, это, скорее всего, решит проблему.