У меня есть сервер с подключенным сетевым хранилищем ESXi 5 и iSCSI (4x1Tb Raid-Z на freenas). Эти две машины подключены друг к другу с помощью Gigabit Ethernet и промежуточного коммутатора.
Через некоторое время, если у меня работает много (4-5 или более) виртуальных машин, они перестают отвечать (большие задержки, прежде чем что-либо произойдет). Мы пытаемся найти причину этого.
Сегодня мы посмотрели на esxtop и обнаружили, что DAVG этого iSCSI LUN остается на уровне 70-80. Читал, что +30 критично!
Что могло вызвать такое большое время отклика?
Как вы, вероятно, уже знаете, DAVG относится к задержке диска, и да, более 30 мсек обычно дает вам заметное снижение производительности и скорости отклика. Задержка может быть вызвана множеством проблем, но, прежде всего, ваши диски должны быть способны обрабатывать нагрузку ввода-вывода, которую вы на них бросаете.
Нагрузка ввода-вывода относится не только к количеству операций ввода-вывода в секунду (IOPS), но и к шаблон. Случайный (шаблонный) ввод-вывод - это в значительной степени то, что вы ожидаете от виртуализированных серверов, поэтому конфигурация вашего диска должна хорошо работать с точки зрения случайного ввода-вывода. К сожалению, RAID-Z не отвечает всем требованиям. В соответствии с Oracle:
Ситуация со случайными входами требует особого внимания при рассмотрении RAID-Z.
Фактически, в первом приближении, группа RAID-Z из N дисков будет вести себя как единое устройство с точки зрения доставленных произвольных операций ввода-вывода в секунду. Таким образом, группа устройств из 10 дисков, каждое из которых способно выполнять 200 операций ввода-вывода в секунду, будет глобально действовать как группа RAID-Z, обеспечивающая скорость 200 операций ввода-вывода в секунду. Это цена, которую нужно заплатить за обеспечение надлежащей защиты данных без двукратных накладных расходов, связанных с зеркалированием.
Oracle говорит здесь, что набор RAID-Z может обрабатывать примерно такое же количество случайных операций ввода-вывода в секунду, что и один диск в наборе. Один диск 7,2 КБ может выполнять около 80 операций ввода-вывода в секунду (и это может быть достаточно много, в зависимости от того, кого вы спрашиваете), поэтому в RAID-Z весь массив может выполнять только 80 случайных операций ввода-вывода в секунду. Запуск 5-7 серверов на этом небольшом количестве операций ввода-вывода в секунду - рецепт ужасной производительности.
Вы увидите гораздо лучшую производительность, если настроите свои 4 диска в наборе RAID-10. Если вам нужна емкость RAW более 2 ТБ (это то, что вы получите в RAID-10), используйте RAID-5. В этом случае любой из них даст вам лучшую производительность произвольного ввода-вывода, чем RAID-Z.