У меня есть небольшой кластер GlusterFS с двумя серверами хранения, обеспечивающими реплицированный том. На каждом сервере есть 2 диска SAS для ОС и журналов и 22 диска SATA для фактических данных, сгруппированных вместе как RAID10 с использованием MegaRAID SAS 9280-4i4e со следующей конфигурацией: http://pastebin.com/2xj4401J
К этому кластеру подключено несколько других серверов с собственным клиентом, на котором запущен nginx для обслуживания файлов, хранящихся на нем, в порядке от 3 до 10 МБ.
Прямо сейчас сервер хранения имеет исходящую полосу пропускания 300 Мбит / с, а уровень занятости массива raid составляет 30-40%. Есть также странные побочные эффекты: иногда io-latency резко возрастает, и доступ к рейду невозможен в течение> 10 секунд. Используемая файловая система - xfs, и она была настроена в соответствии с размером полосы рейда.
Кто-нибудь знает, в чем может быть причина такой плохой работы массива? 22 диска в RAID10 должны доставить путь больше пропускной способности.
Кто-то кричать на жесткие диски? :-)
А если серьезно: много ли операций записи во время всплесков задержки ввода-вывода? Вы пробовали использовать iotop
и / или btrace
посмотреть, что творится под капотом?
Возможно, RAID-контроллер очищает свой кеш во время всплесков и блокирует все до завершения?
Если вы сможете зарегистрировать всплеск, у нас будет больше работы. В любом случае, без явных проблем с конфигурацией, я с достаточной уверенностью могу сказать, что это, вероятно, проблема с оборудованием. Я бы начал с замены карты, а затем, возможно, дисков, если они на гарантии.