Несколько месяцев назад я использовал устройства zram в формате XFS, связанные вместе с GlusterFS, чтобы создать распределенную / сетевую / реплицированную файловую систему в памяти на нескольких серверах без операционной системы (под управлением RHEL 7.2).
Я использую эту FS как эффективный способ хранения, обслуживания и репликации изображений и видео для моего многосерверного сервера приложений. И мне не удалось найти никаких других решений для FS в памяти, поэтому я взломал это.
Он работал хорошо в течение 4 месяцев, но вчера вечером один из серверов вышел из строя из-за повреждения XFS - и мне пришлось выполнить перезагрузку ОС. Я не знаю наверняка, что виновата эта установка .... но шансы есть.
Что приводит меня к ...
1) Есть ли какие-либо передовые методы, которым я должен следовать, чтобы сделать эту настройку более стабильной?
2) Могу ли я (или даже должен) настроить систему журналирования, чтобы я мог отслеживать текущее состояние каждого узла zram + xfs? И знайте, что пошло не так, если больше не произойдет сбоев.
Некоторые тесты производительности:
/ dev / loop0 = https://erlhelinfotech.wordpress.com/2013/02/20/ramdisk-service-for-systemd/
/ dev / zram0 = моя настройка zram
/ dev / sdb2 = стандартный диск 7200 об / мин
Зрам редко, если вообще когда-либо, привыкает к такому уровню производительности. Возможно, но это не доказано, что вы вызвали ошибку где-то в этом стеке хранилища.
Гораздо более традиционным и предположительно стабильным является размещение блочных устройств на постоянных носителях. Вы можете быть удивлены производительностью твердотельного накопителя с большим количеством оперативной памяти для кеширования. С дополнительным бонусом в виде постоянных данных.
Вы можете настроить себя для лучшей обработки сбоев. Удаленный системный журнал, удаленная сетевая консоль, пакеты отладки ядра и персонал службы поддержки, способный разобраться во всем этом.
Не бойтесь пробовать разные компоненты, если текущая комбинация не работает. Блочная файловая система, распределенная файловая система, версия ядра.
Файловые системы в памяти не рассчитаны на увеличенное время работы, а скорее на короткие всплески высокой активности IOPS. Вероятно, ваш сервер столкнулся с состоянием отсутствия памяти и, будучи не в состоянии заменить (из-за заблокированной памяти, назначенной устройству ramdrive), просто вышел из строя.
В любом случае, чтобы следить за состоянием вашего сервера, я предлагаю вам использовать что-нибудь как Zabbix. Вы также можете создать оповещение по электронной почте, которое будет срабатывать при нехватке памяти и / или других ошибках.