Имел несчастье обновить HP Proliant DL380 G4 с SLES 10 SP2 (i586) до SLES 10 SP4 (x86_64). Хотя установка прошла гладко, сервер перестал отвечать через пару дней безотказной работы. Сервер отвечает на PING, но SSH и даже доступ к консоли не работают. Единственный способ восстановления - холодная перезагрузка сервера.
Системные журналы ничего не показывают, когда сервер не отвечает. При поиске я мог видеть аналогичные случаи, описанные для различных версий Linux, и обычно разрешалось либо обновлением BIOS, либо прошивки сервера.
Также безуспешно пробовал использовать acpi = ht и acpi = off в параметрах загрузки.
Я обновил версию BIOS сервера, доступную на сайте паспортов HP по этой ссылке но это не решило проблему.
Потом попробовал обновить прошивку контроллера хранилища с Вот
Я перезагрузил сервер и жду, чтобы увидеть, решит ли это проблему. Любые предложения / рекомендации о том, что является основной причиной и как я могу ее исправить?
Я смог найти одно сообщение, которое довольно близко к тому, что я вижу Ubuntu 12.04 - HP ProLiant DL380 G4 - максимальная загрузка / не отвечает
Информация о сервере:
Linux hostname 2.6.16.60-0.85.1-smp #1 SMP Thu Mar 17 11:45:06 UTC 2011 x86_64 x86_64 x86_64 GNU/Linux
> lscpu
Architecture: x86_64
CPU(s): 4
Thread(s) per core: 2
Core(s) per socket: 1
CPU socket(s): 2
NUMA node(s): 1
Vendor ID: GenuineIntel
CPU family: 15
Model: 4
Stepping: 1
CPU MHz: 3200.225
L1d cache: 16K
L2 cache: 1024K
> modinfo cciss
filename: /lib/modules/2.6.16.60-0.85.1-smp/updates/cciss.ko
license: GPL
description: Driver for HP Smart Array Controllers version 3.6.28-24 (d927/s1461)
author: Hewlett-Packard Company
srcversion: 737C49390DD1F6FB9BC03F7
>slabtop
Active / Total Objects (% used) : 331966 / 339552 (97.8%)
Active / Total Slabs (% used) : 20306 / 20315 (100.0%)
Active / Total Caches (% used) : 98 / 136 (72.1%)
Active / Total Size (% used) : 78133.61K / 79253.95K (98.6%)
Minimum / Average / Maximum Object : 0.02K / 0.23K / 128.00K
OBJS ACTIVE USE OBJ SIZE SLABS OBJ/SLAB CACHE SIZE NAME
191752 191637 99% 0.09K 4358 44 17432K buffer_head
44916 44891 99% 0.20K 2364 19 9456K dentry_cache
35620 35561 99% 0.78K 7124 5 28496K ext3_inode_cache
15064 15035 99% 0.52K 2152 7 8608K radix_tree_node
6510 5859 90% 0.18K 310 21 1240K vm_area_struct
5782 5689 98% 0.06K 98 59 392K size-64
3840 3747 97% 0.08K 80 48 320K sysfs_dir_cache
3288 3271 99% 0.61K 548 6 2192K proc_inode_cache
3015 2259 74% 0.25K 201 15 804K filp
2304 2043 88% 0.02K 16 144 64K anon_vma
2304 1911 82% 0.02K 16 144 64K dm_tio
2208 1899 86% 0.04K 24 92 96K dm_io
2106 2096 99% 0.58K 351 6 1404K inode_cache
1710 1633 95% 0.12K 57 30 228K size-128
1680 1515 90% 0.03K 15 112 60K size-32
1480 1169 78% 0.09K 37 40 148K journal_head
Любые указатели будут оценены.
У меня было много RAID-контроллеров HP Smart Array 6400/641 / 6i SCSI, которые зависали аналогичным образом в 2003-2006 годах с системами Red Hat / CentOS. Вы теряете RAID-контроллер и базовую систему хранения. Ввод-вывод останавливается и даже не удается войти в консоль, потому что ОС не может читать с диска. Сетевой стек находится в памяти, поэтому система отвечает на эхо-запрос.
Отчасти это взаимодействие с водителем. Отчасти дело в том, что эти системы не предназначены для использования с существующими сегодня ОС. Других вариантов, кроме использования более современного оборудования (или, может быть, покупка другой единицы за 18 долларов на eBay тестировать). В то время это происходило не со всем моим сервером, но определенно повлияло на некоторые больше, чем на другие.
Важных обновлений прошивки нет, так как последняя ревизия с 2008 г.. Системная BIOS также перестала получать обновления в 2008 году. Эта проблема с хранилищем или серверное оборудование не поддерживаются. любой путь.
DL380 G4 - это сервер 10-летней давности с древней технологией (PCI-X, Ultra SCSI и т. Д.). Ожидаете ли вы поддержки настольного компьютера такого года выпуска?
Видеть: HP Proliant DL380 G4 - сможет ли этот сервер работать в 2011 году?