Я развернул четыре сервера ubuntu 10.04. В кластерном сценарии они соединяются по двое. с обеих сторон у нас есть программные диски raid1, drbd8 и OCFS2, а на некоторых машинах kvm работают с дисками qcow2.
Я следил за этим: Ссылка на сайт
corosync используется только для DRBD и OCFS, машины kvm запускаются "вручную"
Когда все работает нормально: хорошая производительность, хороший ввод-вывод, но в определенный момент один из двух кластеров начал зависать. Затем мы попробовали включить только один сервер, и он тоже зависает. Кажется, это происходит, когда происходит тяжелое ЧТЕНИЕ на одной из виртуальных машин, то есть во время резервного копирования rsyn. Когда это происходит, виртуальные машины больше не доступны, и реальный сервер с хорошей задержкой отвечает на пинг, но экран и ssh недоступны.
Все, что мы можем сделать, это принудительно завершить работу (удерживая кнопку) и перезапустить, а когда он снова включится, рейд, на котором выполняется повторная синхронизация реле drbd. Все время висит такой факт.
После пары недель боли с одной стороны этим утром зависла и другая группа, но у нее другие экземпляры moteherboard, ram, kvm. То же самое и для сценария rsync и для дисков Western Digital RAID Edistion с обеих сторон.
Может ли кто-нибудь внести свой вклад в решение этой проблемы?
ОБНОВЛЕНИЕ: я преобразовал все изображения из qcow2 в raw и смонтировал файловую систему из виртуальной машины с noatime и nodiratime. Я использовал ionice для rsync, но сегодня утром он снова завис, когда пользователь читал много файлов из общей папки samba. Сейчас я перемещаю образы виртуальных машин с ocfs2 на ext3, но это действительно поражение ... любые идеи приветствуются.
Похоже, вам нужно попробовать другую схему хранения для меня (хотя, если вы используете предварительно выделенные диски RAW с виртуальными машинами, вы избежите некоторых накладных расходов, и вам действительно нужен qcow2, только если вы используете снимки)
Стабильно ли работают виртуальные машины без кластеризации, используя только локальные диски?
Вы пытались использовать ionice, чтобы назначить процессу rsync более высокий уровень nice, чтобы он не нарушал все остальное?
Вы тестировали с GFS вместо ocfs2? Может получится лучше, и у вас есть описание в руководстве, на которое вы разместили ссылку