Назад | Перейти на главную страницу

SLES 10 SP4 (x86_64) - HP Proliant DL380 G4 - случайным образом перестает отвечать

Имел несчастье обновить HP Proliant DL380 G4 с SLES 10 SP2 (i586) до SLES 10 SP4 (x86_64). Хотя установка прошла гладко, сервер перестал отвечать через пару дней безотказной работы. Сервер отвечает на PING, но SSH и даже доступ к консоли не работают. Единственный способ восстановления - холодная перезагрузка сервера.

Системные журналы ничего не показывают, когда сервер не отвечает. При поиске я мог видеть аналогичные случаи, описанные для различных версий Linux, и обычно разрешалось либо обновлением BIOS, либо прошивки сервера.

Также безуспешно пробовал использовать acpi = ht и acpi = off в параметрах загрузки.

Я обновил версию BIOS сервера, доступную на сайте паспортов HP по этой ссылке но это не решило проблему.

Потом попробовал обновить прошивку контроллера хранилища с Вот

Я перезагрузил сервер и жду, чтобы увидеть, решит ли это проблему. Любые предложения / рекомендации о том, что является основной причиной и как я могу ее исправить?

Я смог найти одно сообщение, которое довольно близко к тому, что я вижу Ubuntu 12.04 - HP ProLiant DL380 G4 - максимальная загрузка / не отвечает

Информация о сервере:

Linux hostname 2.6.16.60-0.85.1-smp #1 SMP Thu Mar 17 11:45:06 UTC 2011 x86_64 x86_64 x86_64 GNU/Linux

> lscpu
Architecture:          x86_64
CPU(s):                4
Thread(s) per core:    2 
Core(s) per socket:    1
CPU socket(s):         2
NUMA node(s):          1
Vendor ID:             GenuineIntel
CPU family:            15
Model:                 4
Stepping:              1
CPU MHz:               3200.225
L1d cache:             16K
L2 cache:              1024K


> modinfo cciss
filename:       /lib/modules/2.6.16.60-0.85.1-smp/updates/cciss.ko
license:        GPL
description:    Driver for HP Smart Array Controllers version 3.6.28-24 (d927/s1461)
author:         Hewlett-Packard Company
srcversion:     737C49390DD1F6FB9BC03F7

>slabtop
 Active / Total Objects (% used)    : 331966 / 339552 (97.8%)
 Active / Total Slabs (% used)      : 20306 / 20315 (100.0%)
 Active / Total Caches (% used)     : 98 / 136 (72.1%)
 Active / Total Size (% used)       : 78133.61K / 79253.95K (98.6%)
 Minimum / Average / Maximum Object : 0.02K / 0.23K / 128.00K

 OBJS ACTIVE  USE OBJ SIZE  SLABS OBJ/SLAB CACHE SIZE NAME
 191752 191637  99%    0.09K   4358       44     17432K buffer_head
 44916  44891  99%    0.20K   2364       19      9456K dentry_cache
 35620  35561  99%    0.78K   7124        5     28496K ext3_inode_cache
 15064  15035  99%    0.52K   2152        7      8608K radix_tree_node
  6510   5859  90%    0.18K    310       21      1240K vm_area_struct
  5782   5689  98%    0.06K     98       59       392K size-64
  3840   3747  97%    0.08K     80       48       320K sysfs_dir_cache
  3288   3271  99%    0.61K    548        6      2192K proc_inode_cache
  3015   2259  74%    0.25K    201       15       804K filp
  2304   2043  88%    0.02K     16      144        64K anon_vma
  2304   1911  82%    0.02K     16      144        64K dm_tio
  2208   1899  86%    0.04K     24       92        96K dm_io
  2106   2096  99%    0.58K    351        6      1404K inode_cache
  1710   1633  95%    0.12K     57       30       228K size-128
  1680   1515  90%    0.03K     15      112        60K size-32
  1480   1169  78%    0.09K     37       40       148K journal_head

Любые указатели будут оценены.

У меня было много RAID-контроллеров HP Smart Array 6400/641 / 6i SCSI, которые зависали аналогичным образом в 2003-2006 годах с системами Red Hat / CentOS. Вы теряете RAID-контроллер и базовую систему хранения. Ввод-вывод останавливается и даже не удается войти в консоль, потому что ОС не может читать с диска. Сетевой стек находится в памяти, поэтому система отвечает на эхо-запрос.

Отчасти это взаимодействие с водителем. Отчасти дело в том, что эти системы не предназначены для использования с существующими сегодня ОС. Других вариантов, кроме использования более современного оборудования (или, может быть, покупка другой единицы за 18 долларов на eBay тестировать). В то время это происходило не со всем моим сервером, но определенно повлияло на некоторые больше, чем на другие.

Важных обновлений прошивки нет, так как последняя ревизия с 2008 г.. Системная BIOS также перестала получать обновления в 2008 году. Эта проблема с хранилищем или серверное оборудование не поддерживаются. любой путь.

DL380 G4 - это сервер 10-летней давности с древней технологией (PCI-X, Ultra SCSI и т. Д.). Ожидаете ли вы поддержки настольного компьютера такого года выпуска?

Видеть: HP Proliant DL380 G4 - сможет ли этот сервер работать в 2011 году?