Назад | Перейти на главную страницу

Дисковые счетчики Perfmon против SAN

Я не складской парень. Я знаю, как писать SAN и некоторые основы помимо этого, но не намного.

Надежны ли счетчики стандартных дисков при сравнении с хранилищем SAN? У нас есть 2 сервера MS SQL (2005), оба подключенные к одной сети SAN, которая вчера начала испытывать проблемы. Мы не контролируем оборудование, поэтому у меня нет большой информации о том, как сконфигурировано хранилище, кроме того, что я вижу в LUN через Veritas Enterprise Admin (то есть просто базовую конфигурацию тома). У меня нет доступа к инструментам для мониторинга пропускной способности контроллеров или коммутаторов.

Вместо этого я запускал счетчики perfmon (% дискового времени для физического и логического, длина дисковой очереди для физического и логического). Цифры для% дискового времени для физического диска кажутся просто ужасными - до 32000% (да, 32 КБ).

Правильно ли это, или я прав, полагая, что что-то накапливается ниже уровня LUN, чтобы получить эту метрику, и этот счетчик не является тем, что я должен использовать против хранилища SAN?

РЕДАКТИРОВАТЬ:
Следует добавить, что мы недавно обнаружили, что один из 32 модулей кеширования имеет проблемы и был исключен из системы. Я знаю, что это Hitachi, но не знаю подробностей относительно модели.

ОБНОВИТЬ:
Hitachi только что завершила замену неисправного модуля памяти и повторную инициализацию карты оптоволоконного порта, теперь все, кажется, вернулось к норме. Спасибо за информацию, ребята!

По-видимому, сумасшедшие числа для% Disk Time что-то указывают, но способ, которым Perfmon получает% Disk Time, означает, что числа> 100% не являются невозможными.

% Время на диске - это фактически рассчитанный счетчик, и он исходит из:

Avg Disk Sec/Transfer * Disk Transfers/sec. 

Avg Disk Sec / transfer берет сумму времени завершения для всех операций ввода-вывода в текущем интервале и делится на количество операций ввода-вывода, что дает среднее время завершения до конца. Передача диска в секунду - это просто общее количество полных операций ввода-вывода, разделенное на интервал.

Многие из этих операций ввода-вывода могли быть инициированы за пределами текущего интервала, поэтому их результат может быть> 100%. Это может произойти в любой системе, но на сложных дисковых массивах, таких как SAN, оно будет превышать 100% чаще.

Из-за того, как он рассчитывается,% времени на диске на самом деле мало что говорит вам, хотя в этом случае он говорит вам, что что-то не так. Расчет использования (100% времени простоя) - лучшая идея, поскольку% времени простоя фактически измеряется напрямую.

Длина очереди на диске может быть намного больше, чем при простой настройке локального хранилища, но обычно, если длина очереди >> число шпинделей, поддерживающих LUN, выполняется резервное копирование, особенно если длина очереди постоянно увеличивается в течение любого значительного периода. времени. Значение 10 или даже 20 для LUN с 10-15 дисками вообще не будет проблемой, но 350 определенно говорит о том, что что-то не так. Неисправный или плохо настроенный кэш, безусловно, может вызвать подобные проблемы, но могут быть и другие причины.

Тем не менее, если вы хотите знать, что вам действительно нужно, взгляните на мониторинг производительности на самом уровне SAN, и вам придется получить это от своих сотрудников SAN. Проблема может быть в дисках на LUN (возможно, произошел сбой диска и происходит перестройка RAID, возможно, кеш отключен по какой-то причине, возможно, другие LUN, выделенные с тех же дисков, имеют более высокий приоритет и заняты), возможно кеш отключен \ отказал в этом конкретном массиве, возможно, фабрика SAN или коммутаторы испытывают проблемы.

Есть старая, но очень хорошая статья о Счетчики дисков в Windows здесь.

Некоторые счетчики вам полезны, а некоторые нет. Такие вещи, как текущая дисковая очередь, покажут вам очередь, которую видит хост Windows между тем, когда он отправляет команду чтения / записи, и той командой, которая обрабатывается для кеша в SAN. Но если диски работают нормально, вы все равно можете видеть очереди на хосте из-за проблем с кешем, проблем с переключением или проблем с волокном.

Такие вещи, как секунды на чтение и секунды на запись, будут работать одинаково, они говорят вам, сколько времени потребовалось для записи в кеш.

Такие числа, как количество операций ввода-вывода в секунду, немного полезнее. Опять же, это ввод-вывод в кеш SAN, но этот ввод-вывод должен в какой-то момент попасть на диск. То же самое и с чтением операций ввода-вывода в секунду. Он читает с диска и кеша, но если он находится в кэше чтения, он в какой-то момент сошел с диска.

Каковы ваши сред. Длина очереди чтения с диска »и« Сред. Disk WriteQueue Length '' значения perfmon для этих LUN, как каждый сервер сравнивается друг с другом.

Если вы можете договориться о тишине со своими парнями из SAN, вы можете запустить IOZone на обеих машинах и сравните результаты.