Окружающая среда:
Серверная плата Intel S2600GZ
2 процессора Intel Xeon E5-2620
128 ГБ оперативной памяти DDR3
RAID-контроллер Intel RS25DB080 (LSI SAS2208) с четырьмя дисками ST2000NM0033-9ZM175 SATA
Ubuntu 12.04.5 LTS / Linux 3.11.0-26-универсальный x86_64
У нас есть аппаратный том RAID10 объемом 4 ТБ, созданный на вышеупомянутом контроллере, и установленная на нем ОС Ubuntu Server. Этот сервер является «горячим резервом» при незначительной нагрузке (умеренно активный блок реплики GlusterFS и несколько резервных виртуальных машин KVM / qemu).
Когда нагрузка на диск увеличивается (некоторые виртуальные машины захватывают основную роль, перезапускаются или увеличивается объемная активность GlusterFS), мы иногда получаем всплеск Системное время процессора и высокие средние значения нагрузки. Ни то, ни другое htop
, ни iotop
выявить виновного. Значения irq и softirq нормальные. Обычно мы пытаемся уменьшить нагрузку на диск, и в итоге системное время процессора постепенно приходит в норму. Но только до тех пор, пока все это не повторится снова.
Мы действительно подозреваем подсистема хранения, но не могу понять, что именно неисправно. MegaCli -PDList -aALL
сообщает об отсутствии проблем с дисками, MegaCli -AdpEventLog -GetSinceReboot -f lsi-events.log -aALL
сообщает об отсутствии типичных ошибок, состояние тома всегда optimal
. smartctl
также не сообщает, что S.M.A.R.T. проблемы с любым из жестких дисков. Ситуация повторяется вот уже более полугода, ни один из описанных выше отчетов не изменился - все системы в порядке.
Итак, вот вопросы. Здесь любой крошечный шанс что описанные проблемы могли быть вызваны неисправным RAID-контроллером? Или, скорее всего, умирает один из дисков и оба его S.M.A.R.T. подсистема и прошивка контроллера загадочным образом не могут ее обнаружить? Как в последнем случае идентифицировать диск? Или как мы можем подтвердить, что это ошибка контроллера, чтобы его замена была оправдана? Может быть, есть другие предложения?
В самом деле????
У меня была такая же проблема 2 года подряд на 2 серверах, поэтому я не доверял использовать для этого внутренний контроллер рейда, и через неделю я решил поцарапать и переустановить оба с помощью программного рейда (вы всегда в безопасности). Спустя 2 года никаких проблем с этим они работают отлично. Конечно, мой заказчик потратил много денег впустую, но я с самого начала не был согласен с ним в выборе, который я использую для работы с другими поставщиками оборудования.
взглянуть..
dmidecode -t 2
SMBIOS 2.6 present.
Handle 0x0002, DMI type 2, 15 bytes
Base Board Information
Manufacturer: Intel Corporation
Product Name: S2600GZ
Version: G11481-354
Serial Number: QSGR34501185
Asset Tag: ....................
Features:
Board is a hosting board
Board is replaceable
Location In Chassis: To be filled by O.E.M.
Chassis Handle: 0x0003
Type: Motherboard
Contained Object Handles: 0