На прошлой неделе у нас произошел довольно серьезный сбой, который затронул несколько сервисов, что вынудило нас выйти из нашего соглашения об уровне обслуживания с клиентами. Теперь, когда все решено, я провожу вскрытие.
На основе этого обзора я хотел бы создать внутренний документ, в котором описывается сбой, его последствия, наш ответ и решение. Я хочу придумать довольно стандартную форму для будущего повторного использования. Я изложил свои мысли ниже, но что еще нужно включить? Если бы это был инцидент, связанный с безопасностью, что бы вы добавили?
Постарайтесь ограничить сообщения одним элементом и объяснением, и этот пост может быть дополнен ответами, получившими наибольшее количество голосов.
Хотя это могло быть освещено в Профилактические меры принять, Я бы порекомендовал Метод обнаружения раздел, который вы могли бы использовать, чтобы отметить, каковы были настоящие симптомы и как вы могли бы обнаружить проблему (быстрее), если она повторится снова, в идеале с использованием автоматизации.
Выглядит хорошо. Я бы добавил только следующее:
Эффекты / Последствия: Каковы последствия сбоя - кто пострадал, какие SLA были нарушены (если таковые имеются), были ли какие-то побочные эффекты?
Затронутые услуги и продолжительность отключения говорят вам лишь частично о том, насколько серьезным было отключение. Вы также хотите знать, какое влияние это оказало на бизнес.
Влияние: Как это повлияло на пользователей и как это было воспринято? Сколько это обошлось нам (из-за отсутствия SLA, потерянных заказов и т. Д.)?
Публичный релиз и внутренний релиз
Это больше зависит от руководства, но вы можете в любом случае, что включить в него, что следует сообщить клиентам об этом или о своей рекомендации. Также в любом случае получите согласие руководства на точную формулировку того, что будет выпущено для клиентов, прежде чем что-либо выпускать.
Публичный релиз должен быть включен в this, чтобы любой сотрудник компании знал, что им разрешено рассказывать клиентам.