Каковы лучшие инструменты для устранения узких мест в производительности SAN?
Многое зависит от оборудования, с которым вы играете. Узкие места могут возникать из разных источников:
Извините, это так ориентировано на окна, но инструмент PAL (Performance Analysis of Logs) - http://www.codeplex.com/PAL полезен для выявления проблем с настройками SAN, хотя вам может потребоваться получить довольно долгий период времени из журналов счетчиков производительности .blg. Надеюсь это поможет.
Ваш выбор инструмента зависит от вашей аппаратной платформы. В любом случае узкие места проявятся в одной из трех точек вашей архитектуры:
Вам понадобится инструмент (или инструменты), позволяющий контролировать каждый из этих компонентов. Возможно, вы захотите принять лучшую в своем классе стратегию и использовать 3 разных инструмента или вы можете предпочесть подход «Властелина колец» и выбрать один инструмент, «чтобы управлять ими всеми». Все, что работает для вас. Для начала свяжитесь со своим поставщиком (-ами) и узнайте, какие инструменты доступны для ваших устройств. Вы должны иметь возможность начать сбор метрик в каждой из этих точек в вашей цепочке ввода-вывода, что позволит вам определить, на чем вам нужно сосредоточить свои усилия.
Следите за длиной очереди дисков на серверах:
Если вам нужно комплексное корпоративное решение, обратите внимание на TPC для Disk / Fabric от IBM. Вы можете контролировать любые компоненты вашей SAN (которые поддерживают SMI-S, а также другие стандарты) из одного интерфейса и иметь возможность просматривать или запрашивать исторические данные.
Если это не вариант, вы можете запросить статистику различных устройств SAN и настроить своего рода мониторинг RRD, чтобы построить график производительности и выявить узкие места.
Большинство дисковых подсистем и коммутаторов имеют своего рода встроенный мониторинг производительности в виде живых графиков - попробуйте взглянуть и на них.
(отказ от ответственности: моя компания продает TPC)
Вы можете использовать Storage Essentials от HP. У них есть модуль производительности, программное обеспечение может анализировать от сервера до SAN. Я думаю, что анализ на стороне сервера работает только с сервером HP.
Хороший вопрос,
Для основных платформ хранения данных EMC: Workload Analyzer работает с EMC Symmetrix. Этот очень надежный инструмент является частью семейства EMC ControlCenter. Для массивов CLARiiON и Celerra Navi Analyzer может предоставить аналогичные данные о производительности. Этот инструмент доступен на уровне массива. В отношении производительности SAN могут помочь инструменты от Brocade и Cisco (менеджер фабрики или Connetrix Manager / DFCM). Кроме того, при удаленной репликации могут потребоваться сетевые инструменты. Не стесняйтесь обращаться к специалисту по продажам EMC или специалисту по обслуживанию EMC, если вам нужны подробные инструкции в пространстве SAN.
Собирать информацию. Все это. Все время :)
Чтобы выявить узкие места, довольно часто вам нужно иметь возможность видеть индивидуальную глубину очереди и задержку обменов (с разбивкой по инициатору, цели, ИТ или ITL), а также события B2Binfo и ссылки (LR, C3D) на всех портах коммутатора SAN. -широко.
Я работаю с разными компаниями каждый день. Я обычно нахожу такие ситуации, как старый сервер с огромной глубиной очереди, большие обмены, несколько CRC для небольшого ослабления ссылок и скачкообразная нагрузка, так что SAN кажется работоспособным, за исключением тех редких случаев, когда он «выцветает». Проверив san-wide на наличие признаков замедления и «увеличив» эти затронутые ссылки, увидев, является ли спрос чрезмерным или корреляция между загрузкой этого сервера, информацией B2B и / или другими данными, мы можем увидеть несколько наиболее вероятных подозреваемые.
Мы используем специальный инструмент для сбора и отображения этих данных, но, тем не менее, вы можете собирать данные о задержках, запросах и событиях из этих различных источников, и это должно работать на вас. Я не хочу бросаться на вопрос 5-летней давности без ответа с рекламой. Если вы хотите подробностей и упоминания имен, оставьте комментарий.
Ключ в том, что вы не будете знать, на какие данные смотреть, пока это не произойдет. Так что собери все это. Чем больше вы сможете исследовать постфактум, тем больше у вас будет шансов получить представление о том, что произошло, и о том, как избежать повторения.
Обычно, если возникает проблема с производительностью SAN, реальным решением является решение политических проблем, которые в первую очередь вынудили вас купить трудно диагностируемую и поддерживать SAN. Замените SAN и хост на HP DL380 G5 с двумя контроллерами с кэш-памятью 512 МБ и 4 * 146 ГБ 15KRPM дисков на контроллер в RAID 1 + 0 (или, возможно, RAID 5 на контроллер). Разделите две группы RAID. Добавьте четыре SSD-карты FusionIO PCI-E емкостью 320 ГБ, программный RAID 1 + 0.
В целом решение работает быстрее, чем любая SAN, и дает больше места для хранения, чем требуется большинству систем.
В этой системе нет резервирования на уровне контроллера. Купите два идентичных сервера и зеркально отразите свои базы данных в программном обеспечении или выполните зеркальное копирование между двумя контроллерами в программном обеспечении для решения, аналогичного (ну, более высокого) по надежности SAN.