Вот уже 2-3 недели мой основной сервер зависает без видимых причин. До этого работал без проблем более 4 месяцев подряд. Каждый раз простая перезагрузка решает проблему.
Текущая настройка:
Я оставляю сервер с открытым и запущенным PuTTy, когда он зависает (от 1 до 3 раз в день), я вижу высокую нагрузку, около 60, все веб-сервисы (HTTP, DNS, SMTP, IMAP, POP3 и т. Д.) ) не отвечают. При подключении к PuTTy я могу войти в систему, но приглашение никогда не появляется, то же самое в локальном приглашении (клавиатура + экран). Кроме того, я видел, что зеленые светодиоды на дисках одновременно мигают с частотой примерно 0,5 Гц - 1 Гц (обычно они мигают намного быстрее и в случайном порядке).
Сначала я подозревал DDoS-атаки и т. Д., Добавил множество проверок fail2ban, ограничения TCP-запросов внешнего брандмауэра и т. Д. После того, как я проверил версии прошивок (включая P400), обновил все до последних версий, проблема все еще возникает. Я также синхронизировал root с другим DL380 G5 (такое же оборудование, кроме 4 дисков по 450 ГБ), чтобы заменить сервер, снова та же проблема.
Я проверил, используя top, iostat, iotop, все еще не знаю. Когда нагрузка высока, загрузка ЦП практически отсутствует (вверху) и отсутствует активность диска (iostat).
Теперь мне интересно, может ли драйвер CCISS иметь проблему в версии, которую я использую?
Вот некоторая информация, которая может быть полезна:
Детали контроллера:
root@hyperion:~# hpapucli
=> ctrl all show status
Smart Array P400 in Slot 1
Controller Status: OK
Cache Status: OK
Battery/Capacitor Status: OK
=> ctrl all show detail
Smart Array P400 in Slot 1
Bus Interface: PCI
Slot: 1
Serial Number: P61620G9SVM38V
Cache Serial Number: PA2270H9SVI198
RAID 6 (ADG) Status: Enabled
Controller Status: OK
Hardware Revision: D
Firmware Version: 6.86
Rebuild Priority: Medium
Expand Priority: Medium
Surface Scan Delay: 15 secs
Surface Scan Mode: Idle
Wait for Cache Room: Disabled
Surface Analysis Inconsistency Notification: Disabled
Post Prompt Timeout: 0 secs
Cache Board Present: True
Cache Status: OK
Cache Ratio: 25% Read / 75% Write
Drive Write Cache: Disabled
Total Cache Size: 512 MB
Total Cache Memory Available: 464 MB
No-Battery Write Cache: Disabled
Cache Backup Power Source: Batteries
Battery/Capacitor Count: 1
Battery/Capacitor Status: OK
SATA NCQ Supported: True
=> ctrl all show config
Smart Array P400 in Slot 1 (sn: P61620G9SVM38V)
array A (SAS, Unused Space: 0 MB)
logicaldrive 1 (838.3 GB, RAID 1+0, OK)
physicaldrive 2I:1:1 (port 2I:box 1:bay 1, SAS, 450 GB, OK)
physicaldrive 2I:1:2 (port 2I:box 1:bay 2, SAS, 450 GB, OK)
physicaldrive 2I:1:3 (port 2I:box 1:bay 3, SAS, 450 GB, OK)
physicaldrive 2I:1:4 (port 2I:box 1:bay 4, SAS, 450 GB, OK)
Сведения о драйвере:
root@hyperion:~# modinfo cciss
filename: /lib/modules/3.2.29/kernel/drivers/block/cciss.ko
license: GPL
version: 3.6.26
description: Driver for HP Smart Array Controllers
author: Hewlett-Packard Company
srcversion: D553A90CDE37829B37A9C27
alias: pci:v0000103Cd00003230sv0000103Csd0000323Dbc*sc*i*
alias: pci:v0000103Cd00003230sv0000103Csd00003237bc*sc*i*
alias: pci:v0000103Cd00003238sv0000103Csd00003215bc*sc*i*
alias: pci:v0000103Cd00003238sv0000103Csd00003214bc*sc*i*
alias: pci:v0000103Cd00003238sv0000103Csd00003213bc*sc*i*
alias: pci:v0000103Cd00003238sv0000103Csd00003212bc*sc*i*
alias: pci:v0000103Cd00003238sv0000103Csd00003211bc*sc*i*
alias: pci:v0000103Cd00003230sv0000103Csd00003235bc*sc*i*
alias: pci:v0000103Cd00003230sv0000103Csd00003234bc*sc*i*
alias: pci:v0000103Cd00003230sv0000103Csd00003223bc*sc*i*
alias: pci:v0000103Cd00003220sv0000103Csd00003225bc*sc*i*
alias: pci:v00000E11d00000046sv00000E11sd0000409Dbc*sc*i*
alias: pci:v00000E11d00000046sv00000E11sd0000409Cbc*sc*i*
alias: pci:v00000E11d00000046sv00000E11sd0000409Bbc*sc*i*
alias: pci:v00000E11d00000046sv00000E11sd0000409Abc*sc*i*
alias: pci:v00000E11d00000046sv00000E11sd00004091bc*sc*i*
alias: pci:v00000E11d0000B178sv00000E11sd00004083bc*sc*i*
alias: pci:v00000E11d0000B178sv00000E11sd00004082bc*sc*i*
alias: pci:v00000E11d0000B178sv00000E11sd00004080bc*sc*i*
alias: pci:v00000E11d0000B060sv00000E11sd00004070bc*sc*i*
depends:
intree: Y
vermagic: 3.2.29 SMP mod_unload
parm: cciss_tape_cmds:number of commands to allocate for tape devices (default: 6) (int)
parm: cciss_simple_mode:Use 'simple mode' rather than 'performant mode' (int)
максимальная мощность при зависании
top - 10:39:45 up 43 min, 2 users, load average: 24.58, 7.14, 2.88
Tasks: 282 total, 1 running, 281 sleeping, 0 stopped, 0 zombie
Cpu(s): 0.0%us, 0.0%sy, 0.0%ni, 99.9%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 32894436k total, 17964512k used, 14929924k free, 97732k buffers
Swap: 0k total, 0k used, 0k free, 10694424k cached
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
3928 root 20 0 37164 2988 2444 S 0 0.0 0:00.41 sshd
4478 root 20 0 17608 1540 1060 R 0 0.0 0:07.62 top
1 root 20 0 4316 696 600 S 0 0.0 0:00.98 init
2 root 20 0 0 0 0 S 0 0.0 0:00.00 kthreadd
3 root 20 0 0 0 0 S 0 0.0 0:00.01 ksoftirqd/0
5 root 20 0 0 0 0 S 0 0.0 0:00.02 kworker/u:0
6 root RT 0 0 0 0 S 0 0.0 0:00.00 migration/0
7 root RT 0 0 0 0 S 0 0.0 0:00.00 migration/1
9 root 20 0 0 0 0 S 0 0.0 0:00.00 ksoftirqd/1
11 root RT 0 0 0 0 S 0 0.0 0:00.00 migration/2
13 root 20 0 0 0 0 S 0 0.0 0:00.00 ksoftirqd/2
14 root RT 0 0 0 0 S 0 0.0 0:00.00 migration/3
16 root 20 0 0 0 0 S 0 0.0 0:00.00 ksoftirqd/3
17 root RT 0 0 0 0 S 0 0.0 0:00.00 migration/4
19 root 20 0 0 0 0 S 0 0.0 0:00.01 ksoftirqd/4
20 root RT 0 0 0 0 S 0 0.0 0:00.00 migration/5
22 root 20 0 0 0 0 S 0 0.0 0:00.01 ksoftirqd/5
23 root RT 0 0 0 0 S 0 0.0 0:00.00 migration/6
25 root 20 0 0 0 0 S 0 0.0 0:00.00 ksoftirqd/6
26 root RT 0 0 0 0 S 0 0.0 0:00.00 migration/7
28 root 20 0 0 0 0 S 0 0.0 0:00.00 ksoftirqd/7
29 root 0 -20 0 0 0 S 0 0.0 0:00.00 cpuset
30 root 0 -20 0 0 0 S 0 0.0 0:00.00 khelper
31 root 20 0 0 0 0 S 0 0.0 0:00.00 kdevtmpfs
32 root 0 -20 0 0 0 S 0 0.0 0:00.00 netns
33 root 20 0 0 0 0 S 0 0.0 0:00.00 kworker/u:1
495 root 20 0 0 0 0 D 0 0.0 0:05.24 sync_supers
497 root 20 0 0 0 0 S 0 0.0 0:00.00 bdi-default
499 root 0 -20 0 0 0 S 0 0.0 0:00.00 kblockd
654 root 0 -20 0 0 0 S 0 0.0 0:00.00 ata_sff
661 root 20 0 0 0 0 S 0 0.0 0:00.00 khubd
667 root 0 -20 0 0 0 S 0 0.0 0:00.00 md
676 root 20 0 0 0 0 S 0 0.0 0:00.40 kworker/3:1
677 root 20 0 0 0 0 S 0 0.0 0:00.12 kworker/4:1
678 root 20 0 0 0 0 S 0 0.0 0:00.65 kworker/5:1
679 root 20 0 0 0 0 S 0 0.0 0:00.16 kworker/6:1
680 root 20 0 0 0 0 S 0 0.0 0:00.21 kworker/7:1
774 root 0 -20 0 0 0 S 0 0.0 0:00.00 rpciod
826 root 20 0 0 0 0 S 0 0.0 0:00.00 khungtaskd
832 root 20 0 0 0 0 S 0 0.0 0:00.00 kswapd0
DL380 G6 с переходом на P410i
Я также пробовал с другим сервером HP, перемещая жесткие диски напрямую и меняя /dev/cciss/c0d0*
по /dev/sda*
в /etc/fstab
и /etc/lilo.conf
, все та же проблема.
Детали контроллера:
Примечание: Да, кеш отключен, у меня сейчас просто нет батареи для этого сервера.
root@hyperion:~# modprobe sg
root@hyperion:~# hpacucli ctrl all show detail
Smart Array P410i in Slot 0 (Embedded)
Bus Interface: PCI
Slot: 0
Serial Number: 50123456789ABCDE
Cache Serial Number: PAAVP9VYBAU0
RAID 6 (ADG) Status: Disabled
Controller Status: OK
Hardware Revision: C
Firmware Version: 6.64
Rebuild Priority: Medium
Expand Priority: Medium
Surface Scan Delay: 15 secs
Surface Scan Mode: Idle
Queue Depth: Automatic
Monitor and Performance Delay: 60 min
Elevator Sort: Enabled
Degraded Performance Optimization: Disabled
Inconsistency Repair Policy: Disabled
Wait for Cache Room: Disabled
Surface Analysis Inconsistency Notification: Disabled
Post Prompt Timeout: 0 secs
Cache Board Present: True
Cache Status: OK
Cache Ratio: 100% Read / 0% Write
Drive Write Cache: Disabled
Total Cache Size: 512 MB
Total Cache Memory Available: 400 MB
No-Battery Write Cache: Disabled
Battery/Capacitor Count: 0
SATA NCQ Supported: True
Сведения о драйвере:
root@hyperion:~# modinfo hpsa
filename: /lib/modules/3.2.29/kernel/drivers/scsi/hpsa.ko
license: GPL
version: 2.0.2-1
description: Driver for HP Smart Array Controller version 2.0.2-1
author: Hewlett-Packard Company
srcversion: 624DA19A5286F6BDA1645F3
alias: pci:v0000103Cd*sv*sd*bc01sc04i*
alias: pci:v0000103Cd0000323Bsv0000103Csd00003356bc*sc*i*
alias: pci:v0000103Cd0000323Bsv0000103Csd00003355bc*sc*i*
alias: pci:v0000103Cd0000323Bsv0000103Csd00003354bc*sc*i*
alias: pci:v0000103Cd0000323Bsv0000103Csd00003353bc*sc*i*
alias: pci:v0000103Cd0000323Bsv0000103Csd00003352bc*sc*i*
alias: pci:v0000103Cd0000323Bsv0000103Csd00003351bc*sc*i*
alias: pci:v0000103Cd0000323Bsv0000103Csd00003350bc*sc*i*
alias: pci:v0000103Cd0000323Asv0000103Csd00003233bc*sc*i*
alias: pci:v0000103Cd0000323Asv0000103Csd0000324Bbc*sc*i*
alias: pci:v0000103Cd0000323Asv0000103Csd0000324Abc*sc*i*
alias: pci:v0000103Cd0000323Asv0000103Csd00003249bc*sc*i*
alias: pci:v0000103Cd0000323Asv0000103Csd00003247bc*sc*i*
alias: pci:v0000103Cd0000323Asv0000103Csd00003245bc*sc*i*
alias: pci:v0000103Cd0000323Asv0000103Csd00003243bc*sc*i*
alias: pci:v0000103Cd0000323Asv0000103Csd00003241bc*sc*i*
depends:
intree: Y
vermagic: 3.2.29 SMP mod_unload
parm: hpsa_allow_any:Allow hpsa driver to access unknown HP Smart Array hardware (int)
parm: hpsa_simple_mode:Use 'simple mode' rather than 'performant mode' (int)
Возможная причина
Вчера, проводя тесты на разных процессах, отключил postfix
и сервер перестал висеть. Как только я запустил снова, сервер завис. Похоже, это неправильная конфигурация или подозрительные SMTP-запросы.
Серия серверов HP ProLiant G5 - это довольно старое оборудование, которое со всех разумных точек зрения не обслуживается. Срок службы этого оборудования истек в 2009 году.
Однако, если вы не против отсутствия поддержки и того факта, что система старше четырех поколений, сервер все еще может работать.
В вашей ситуации вы работаете с плохая ревизия прошивки на RAID-контроллере. Я рекомендую вам обновить прошивку вашего RAID-контроллера до самый последний выпуск (2012 г.).
Обычно это можно сделать из операционной системы, но Slackware также полностью не поддерживается HP. Если вы найдете способ обновить прошивку, это, скорее всего, решит проблему.