Инструменты для устранения узких мест в производительности SAN

Каковы лучшие инструменты для устранения узких мест в производительности SAN?

Многое зависит от оборудования, с которым вы играете. Узкие места могут возникать из разных источников:

Узкие места на основе хоста Иногда сервер просто не может достаточно быстро убрать блоки ввода-вывода. Для этого вам нужно будет использовать любые метрики производительности, которые ваша операционная система (или приложение) должна диагностировать.
Узкие места на основе ткани Коммутаторы Brocade имеют показатели производительности в виде удобных диаграмм, а также фактические цифры. Следуя этим рекомендациям, вы сможете понять, где вы сталкиваетесь с проблемами, например, с насыщенными ISL. SMI-S должен вам здесь помочь, если у вас есть возможность его использовать.
Узкие места массива Они могут быть разных видов, например, насыщенные контроллеры, перегруженные группы дисков и т.п. Как и коммутаторы, новые массивы должны поддерживать SMI-S для отслеживания.

Извините, это так ориентировано на окна, но инструмент PAL (Performance Analysis of Logs) - http://www.codeplex.com/PAL полезен для выявления проблем с настройками SAN, хотя вам может потребоваться получить довольно долгий период времени из журналов счетчиков производительности .blg. Надеюсь это поможет.

Ваш выбор инструмента зависит от вашей аппаратной платформы. В любом случае узкие места проявятся в одной из трех точек вашей архитектуры:

Хост
Коммутационная матрица
Массив хранения

Вам понадобится инструмент (или инструменты), позволяющий контролировать каждый из этих компонентов. Возможно, вы захотите принять лучшую в своем классе стратегию и использовать 3 разных инструмента или вы можете предпочесть подход «Властелина колец» и выбрать один инструмент, «чтобы управлять ими всеми». Все, что работает для вас. Для начала свяжитесь со своим поставщиком (-ами) и узнайте, какие инструменты доступны для ваших устройств. Вы должны иметь возможность начать сбор метрик в каждой из этих точек в вашей цепочке ввода-вывода, что позволит вам определить, на чем вам нужно сосредоточить свои усилия.

Следите за длиной очереди дисков на серверах:

perfmon / scom в Windows
sar в unix
Виртуальный центр / esxtop на VMware

Если вам нужно комплексное корпоративное решение, обратите внимание на TPC для Disk / Fabric от IBM. Вы можете контролировать любые компоненты вашей SAN (которые поддерживают SMI-S, а также другие стандарты) из одного интерфейса и иметь возможность просматривать или запрашивать исторические данные.

Если это не вариант, вы можете запросить статистику различных устройств SAN и настроить своего рода мониторинг RRD, чтобы построить график производительности и выявить узкие места.

Большинство дисковых подсистем и коммутаторов имеют своего рода встроенный мониторинг производительности в виде живых графиков - попробуйте взглянуть и на них.

(отказ от ответственности: моя компания продает TPC)

Вы можете использовать Storage Essentials от HP. У них есть модуль производительности, программное обеспечение может анализировать от сервера до SAN. Я думаю, что анализ на стороне сервера работает только с сервером HP.

Хороший вопрос,

Для основных платформ хранения данных EMC: Workload Analyzer работает с EMC Symmetrix. Этот очень надежный инструмент является частью семейства EMC ControlCenter. Для массивов CLARiiON и Celerra Navi Analyzer может предоставить аналогичные данные о производительности. Этот инструмент доступен на уровне массива. В отношении производительности SAN могут помочь инструменты от Brocade и Cisco (менеджер фабрики или Connetrix Manager / DFCM). Кроме того, при удаленной репликации могут потребоваться сетевые инструменты. Не стесняйтесь обращаться к специалисту по продажам EMC или специалисту по обслуживанию EMC, если вам нужны подробные инструкции в пространстве SAN.

Собирать информацию. Все это. Все время :)

Чтобы выявить узкие места, довольно часто вам нужно иметь возможность видеть индивидуальную глубину очереди и задержку обменов (с разбивкой по инициатору, цели, ИТ или ITL), а также события B2Binfo и ссылки (LR, C3D) на всех портах коммутатора SAN. -широко.

Я работаю с разными компаниями каждый день. Я обычно нахожу такие ситуации, как старый сервер с огромной глубиной очереди, большие обмены, несколько CRC для небольшого ослабления ссылок и скачкообразная нагрузка, так что SAN кажется работоспособным, за исключением тех редких случаев, когда он «выцветает». Проверив san-wide на наличие признаков замедления и «увеличив» эти затронутые ссылки, увидев, является ли спрос чрезмерным или корреляция между загрузкой этого сервера, информацией B2B и / или другими данными, мы можем увидеть несколько наиболее вероятных подозреваемые.

Мы используем специальный инструмент для сбора и отображения этих данных, но, тем не менее, вы можете собирать данные о задержках, запросах и событиях из этих различных источников, и это должно работать на вас. Я не хочу бросаться на вопрос 5-летней давности без ответа с рекламой. Если вы хотите подробностей и упоминания имен, оставьте комментарий.

Ключ в том, что вы не будете знать, на какие данные смотреть, пока это не произойдет. Так что собери все это. Чем больше вы сможете исследовать постфактум, тем больше у вас будет шансов получить представление о том, что произошло, и о том, как избежать повторения.

Обычно, если возникает проблема с производительностью SAN, реальным решением является решение политических проблем, которые в первую очередь вынудили вас купить трудно диагностируемую и поддерживать SAN. Замените SAN и хост на HP DL380 G5 с двумя контроллерами с кэш-памятью 512 МБ и 4 * 146 ГБ 15KRPM дисков на контроллер в RAID 1 + 0 (или, возможно, RAID 5 на контроллер). Разделите две группы RAID. Добавьте четыре SSD-карты FusionIO PCI-E емкостью 320 ГБ, программный RAID 1 + 0.

В целом решение работает быстрее, чем любая SAN, и дает больше места для хранения, чем требуется большинству систем.

В этой системе нет резервирования на уровне контроллера. Купите два идентичных сервера и зеркально отразите свои базы данных в программном обеспечении или выполните зеркальное копирование между двумя контроллерами в программном обеспечении для решения, аналогичного (ну, более высокого) по надежности SAN.