Кто-нибудь заметил, что большинство сбоев серверов в Hetzner происходит примерно в 8:00 GMT + 3? Как пример Вот Что у нас есть в прошлом месяце на этот раз:
докер "Ошибка сегментации"
Сетевое соединение пропало на обоих интерфейсах
Серверный узел отключен с нашим виртуальным сервером на нем
Использование процессора стало 100% благодаря процессу kworker
С чем это может быть связано? Тайна или какая-то проблема с облаком?
Некомпетентность или плохой SLA?
Начнем с плохого SLA. Вы получаете то, за что платите - читайте документы. Гарантируют ли они высокую работоспособность? Может случиться так, что во время простоя в их время (в основном, очень рано утром) они выполняют некоторые сбросы инфраструктуры. В общем, это НЕ должно быть необходимо, но кто знает.
Некомпетентность. Установка исправлений и т. Д. Не должна сбрасывать серверы, и ОБЕИХ сетевых подключений, выходящих из строя, будет означать, что либо они являются одним и тем же физическим подключением (и у вас НЕТ двух подключений за пределами vm), либо кто-то решает сбросить несколько значений сразу, и ЭТО будет некомпетентностью - вы настраивать резервную инфраструктуру только для того, чтобы затем сразу все сбросить.
Главный факт заключается в том, что здесь применяется «не ваше облако, не ваша инфраструктура». Без доступа к физическому уровню вы просто не понимаете, ПОЧЕМУ это происходит, и не можете ни с чем справиться. Я бы посоветовал открыть билет в службу поддержки, поскольку люди там ДЕЙСТВИТЕЛЬНО имеют доступ к физическому уровню. В наши дни у вас должно быть 100% безотказной работы при виртуализации, ЕСЛИ НЕ случаются сумасшедшие вещи (например, дефект). Патчинг? Перенесите жизнь ВМ в другой экземпляр. Выполняйте последовательные обновления (т.е. по одному серверу из кластера за раз). Сбросьте и обновите сеть таким образом, чтобы она не вызывала сбоев (т. Е. Избыточное оборудование, обновите одно, подождите, затем другое). Вы по-прежнему не получаете 100% времени безотказной работы, но любое время простоя следует относить на счет нестандартных операций.
Теперь, если вы «владеете» серверным узлом - то, по сути, это ВАША ошибка в том, что у вас нет ничего лишнего и / или вы не открываете заявку в соответствующие органы, потому что да, это МОЖЕТ быть неисправное оборудование - было там, вы это видели. Опять же, не ваш компьютер, не ваш доступ - вам нужен ИХ специалист на месте.