Назад | Перейти на главную страницу

Сетевая файловая система в памяти с zram + XFS + GlusterFS - передовой опыт

Несколько месяцев назад я использовал устройства zram в формате XFS, связанные вместе с GlusterFS, чтобы создать распределенную / сетевую / реплицированную файловую систему в памяти на нескольких серверах без операционной системы (под управлением RHEL 7.2).

Я использую эту FS как эффективный способ хранения, обслуживания и репликации изображений и видео для моего многосерверного сервера приложений. И мне не удалось найти никаких других решений для FS в памяти, поэтому я взломал это.

Он работал хорошо в течение 4 месяцев, но вчера вечером один из серверов вышел из строя из-за повреждения XFS - и мне пришлось выполнить перезагрузку ОС. Я не знаю наверняка, что виновата эта установка .... но шансы есть.

Что приводит меня к ...

1) Есть ли какие-либо передовые методы, которым я должен следовать, чтобы сделать эту настройку более стабильной?

2) Могу ли я (или даже должен) настроить систему журналирования, чтобы я мог отслеживать текущее состояние каждого узла zram + xfs? И знайте, что пошло не так, если больше не произойдет сбоев.

Некоторые тесты производительности:

/ dev / loop0 = https://erlhelinfotech.wordpress.com/2013/02/20/ramdisk-service-for-systemd/

/ dev / zram0 = моя настройка zram

/ dev / sdb2 = стандартный диск 7200 об / мин

тест производительности с hdparm -Tt

Зрам редко, если вообще когда-либо, привыкает к такому уровню производительности. Возможно, но это не доказано, что вы вызвали ошибку где-то в этом стеке хранилища.

Гораздо более традиционным и предположительно стабильным является размещение блочных устройств на постоянных носителях. Вы можете быть удивлены производительностью твердотельного накопителя с большим количеством оперативной памяти для кеширования. С дополнительным бонусом в виде постоянных данных.

Вы можете настроить себя для лучшей обработки сбоев. Удаленный системный журнал, удаленная сетевая консоль, пакеты отладки ядра и персонал службы поддержки, способный разобраться во всем этом.

Не бойтесь пробовать разные компоненты, если текущая комбинация не работает. Блочная файловая система, распределенная файловая система, версия ядра.

Файловые системы в памяти не рассчитаны на увеличенное время работы, а скорее на короткие всплески высокой активности IOPS. Вероятно, ваш сервер столкнулся с состоянием отсутствия памяти и, будучи не в состоянии заменить (из-за заблокированной памяти, назначенной устройству ramdrive), просто вышел из строя.

В любом случае, чтобы следить за состоянием вашего сервера, я предлагаю вам использовать что-нибудь как Zabbix. Вы также можете создать оповещение по электронной почте, которое будет срабатывать при нехватке памяти и / или других ошибках.