Назад | Перейти на главную страницу

Выполнение анализа первопричин

Я хочу узнать больше о том, как выполнить анализ первопричин. В большинстве случаев наш отдел советует пользователю попробовать перезагрузку (система Windows XP), что на самом деле «решает» большое количество проблем. Когда я тороплюсь (а иногда этому способствует почасовая оплата), я могу попытаться найти обходной путь, чтобы быстро решить проблему, вместо того, чтобы выполнять анализ первопричин.

Большую часть времени я ищу эту информацию в файлах журнала или программе просмотра событий. Иногда я использую инструменты Sysinternals или иногда запускаю анализатор пакетов. Я, вероятно, не использую программы Sysinternals так часто, как следовало бы. Некоторые конкретные идеи о том, как вы используете эти инструменты, когда и почему, также будут полезны.

Я знаю, что это широко открытый вопрос, но не могли бы вы вкратце объяснить свою методологию, инструменты и т. Д., Которые вы используете? Похоже, что многие администраторы SF используют более глубокий процесс, о котором я хотел бы узнать больше. Если это поможет сузить вопрос, меня больше всего заинтересуют инструменты, советы, приемы и т. Д., Относящиеся к серверам и клиентам Windows в среде AD.

Выявление первопричины проблемы зависит от проблемы - ваш первоначальный инстинкт взглянуть на файлы журналов / инструменты sysinternals / анализаторы пакетов, как правило, верен.
Я бы добавил запуск MS Malicious Software Removal Tool и хорошей антивирусной программы в системах Windows (и убедитесь, что в них нет чего-то вроде CyberDefender или других вредоносных программ-троянцев.

Люди из Stack Exchange являются сторонниками метода «5 почему» (http://en.wikipedia.org/wiki/5_Whys, также этот красивый короткий PDF-файл, который показывает его в действии). Это довольно ценный инструмент для анализа первопричин.


Помимо этого, я выделю две широкие категории и некоторые вопросы, которые я обычно задаю / что проверяю:

Загадочное поведение, не связанное с сетью
например "Слово продолжает падать на меня"

Основные вопросы, которые нужно задать:

  1. Что изменилось?
    (Не принимайте за ответ «ничего» - это первая ложь. Новое программное обеспечение, патчи и т. Д. - все в счет.)
  2. Что вы делали, когда у вас была проблема?
    (Постарайтесь извлечь здесь как можно больше деталей - в моем примере выше «Я нажал горячую клавишу для вставить инициалы и программа вылетела ")
  3. Это когда-нибудь работало раньше?
    (Если это так, начните смотреть на материал из пункта (1) выше)
  4. Можете ли вы воспроизвести проблему в своей системе?
    (Если это так, это хороший знак: может помочь звонок в службу технической поддержки производителю. Если нет, вам нужно будет посмотреть в системе пользователя, чтобы ответить на остальные вопросы.)
  5. Чем среда пользователя отличается от вашей?
  6. Подозрительно ли оборудование пользователя (запустите тест памяти, найдите ошибки SMART на жестком диске и т. Д.)
  7. Если вы зашли так далеко (проверка оборудования, проверка программного обеспечения, отсутствие вирусов и вредоносных программ), посетите пользователя на день. Наблюдайте за их рабочими привычками.
    Однажды в моей компании произошла загадочная блокировка системы, связанная с щелчком мыши с определенной частотой (мы до сих пор не знаем почему, но нам пришлось наблюдать, как это делает пользователь, и тренироваться в течение дня, чтобы иметь возможность воспроизводить это надежно)

Проблемы, связанные с сетью

Во многом это похоже, но с некоторыми более конкретными указаниями.

  1. Что изменилось?
    (Да, ты всегда начинаешь с этого)
  2. Что сломано?
    • Можете ли вы получить доступ к веб-страницам? Это только один из них не работает? Если так Это не для всех или только для вас?
    • Можете ли вы пинговать информацию в Интернете по имени?
      Как насчет IP? Как далеко уходит трассировка?
  3. Когда он сломан?
    • Всегда в одно и то же время дня?
    • Кратковременно каждые N дней?
    • Случайно (это ДЕЙСТВИТЕЛЬНО случайный? Нанесите это на календарь ...)
  4. Есть ли что-то странное в удаленном сайте?
    • Посмотрите на DNS - если это циклический перебор, возможен сбой на удаленной стороне
    • Мы говорим о другом конце VPN? Что там с VPN (логи!)?
  5. Есть ли что-то странное на местном сайте?
    • Проверьте свой локальный брандмауэр
    • Проверьте любое "программное обеспечение для фильтрации"
  6. Обратитесь к своему интернет-провайдеру, чтобы узнать, есть ли какие-либо известные проблемы
  7. Проверить такие сайты, как http://www.internetpulse.net/ для известных проблем в сети
  8. Проверить машину пользователя
    (Настройки TCP и т.д. - Обычно не проблема, но иногда.)

В дополнение к отличным отзывам я бы добавил:

  • Определите дату / время возникновения проблемы. Это может показаться очевидным, но я видел слишком много проблем, когда это не было задокументировано, а позже были сделаны неправильные предположения. Это хорошо коррелирует с этапом «что изменилось».

  • Проблема воспроизводится или периодически? Это очень важно, поскольку воспроизводимые симптомы гораздо легче и быстрее разрешаются, чем периодические. Если это воспроизводимо, убедитесь, что шаги задокументированы.

  • Определите симптом (ы). Обратите внимание, что мы различаем «симптом», который является проявлением основной причины, и фактическую проблему / основную причину.

    1. Есть ли какие-нибудь другие действия, которые могут воспроизвести симптом?
    2. Какие еще симптомы есть?
    3. Если проблема носит временный характер, можем ли мы определить действие, которое приведет к ее возникновению?
    4. При каких обстоятельствах мы можем предотвратить появление симптома? Проблема возникает только при входе в систему с использованием сетевой учетной записи, но работает нормально при локальном входе в систему? Возникает ли проблема при входе в систему как обычный пользователь, но нормально работает при входе в систему с повышенными привилегиями? Это происходит только в одной системе, но другая система, которая должна быть похожей, не проявляет симптомов?
  • Локализуйте проблему в неисправном функциональном компоненте. Если в веб-приложении есть ошибка, то связана ли она с кодом приложения, веб-сервером, операционной системой, в которой размещен веб-сервер, сетью или удаленным концом? На данный момент это наилучшее предположение, чтобы ресурсы были сосредоточены на вероятной причине, поэтому убедитесь, что другие знают, что это теория / предположение.

  • Подвергните сомнению свои предположения и попытайтесь собрать эмпирические данные для подтверждения предположений и выводов. Довольно неприятно говорить кому-то, что с x нет проблемы, а позже выясняется, что она действительно есть. Обычно, когда есть неправильное решение, могли быть данные, поддерживающие правильное решение.

Похоже, вы просите общей помощи по устранению неполадок, например Ваши правила устранения неполадок, подход к устранению неполадок? а не как сделать конкретный вид RCA ( http://en.wikipedia.org/wiki/Root_cause_analysis).