Назад | Перейти на главную страницу

Предотвращение повреждения Linux Vms ext3, запущенного на Xenserver, после зависания Equallogic на 45 минут

Сегодня я столкнулся с проблемой с моим Storage Equallogic PS4000E: они зависают на 45 минут, затем запускаются и работают нормально, без журналов, нет ничего, что могло бы помочь нам узнать, что происходит.

Ну, я запускаю Xenserver с 2 server Pool ver. 5.6 SP2, после этой проблемы с хранилищем, самые последние Linux vms Ubuntu 12 и Windows Vms вернулись к нормальной работе, но большинство старых Debian Vms стали доступными только для чтения FS, и нам нужно выполнить fsck все, некоторые vms были навсегда повреждены, а другие нормально работать после перезагрузки и fsck.

Мне нравится знать, есть ли способ предотвратить повреждение файловой системы виртуальной машины на iScsi, потерянное соединение / время ожидания соединения, возможно, увеличение времени ожидания iScsi на Xen или что-то подобное на каждой гостевой виртуальной машине.

Кто-нибудь?

Повреждение невозможно полностью предотвратить, когда вы имеете дело с потерей возможности подключения к хранилищу на ~ 1 час - конечно, не путем настройки некоторой переменной тайм-аута SCSI в гипервизоре или ОС.

К сожалению, ваша неспособность продлить гарантию является нормальным явлением для систем Equallogic с дисками 7,2 КБ, для которых максимальная гарантия ограничена 5 годами (для устройств 10 КБ / 15 КБ / SSD может истечь до 7 лет). Я бы сделал ссылку на PDF-файл EQL «Руководство по выпуску и поддержке», но для доступа к странице поддержки, на которой он размещен, требуется активная гарантия.

Вы заявили, что только ваши «старые» виртуальные машины Debian после этого испытывают серьезные проблемы - возможно, это связано с тем, какую файловую систему они используют и / или как настроены ваши монтирования? (например. data=journal/ordered/writeback)

нет журналов, нет ничего, что могло бы помочь нам узнать, что происходит

Это крайне маловероятно, хотя многие наборы данных журнала может быть трудно получить без предыдущего опыта / знаний в их сборе и анализе.

Как узнать, что это проблема хранения? Какие события / ошибки или поведение вы наблюдали, что привело к такому выводу?

@Dom задал отличный вопрос в комментарии относительно журналов переключения. Диагностика Equallogic не строится на удобочитаемости для конечного пользователя, но журналы коммутатора должны быть полностью доступны и читаемы, если ведение журнала действительно существует.

Если у вас нет бюджета на замену SAN после истечения срока службы / поддержки, вы не можете позволить себе ее вообще. Я знаю, что это полностью ретроспективно и вам не поможет, но вам следует серьезно подумать о переносе хранилища EQL на что-то менее дорогое (например, несколько серверов, только локальное хранилище и репликация виртуальных машин с помощью чего-то вроде DRBD). SAN может быть прекрасным, но это также серьезное финансовое обязательство.