Итак, две ночи назад у нас вышел из строя узел, и на его восстановление ушло больше суток. Я все еще учусь, поэтому я не знаком с вариантами ремонта, но на основе статьи здесь: http://www.datastax.com/dev/blog/repair-service-opsc4
Могу я просто включить услугу ремонта? Устраняет ли это необходимость запускать восстановление nodetool вручную, что является болью из-за его ручного управления и, по-видимому, может быть довольно интенсивным вводом-выводом, что меня очень беспокоит.
Кроме того, предполагая, что эта служба работает в реальном мире, как описано в статье, могу ли я быть уверен, что запуск службы с предложенным интервалом не вызовет проблем с производительностью?
В качестве антиэнтропийного механизма рекомендуется чаще запускать ремонт еженедельно. Вы можете столкнуться с проблемами (данные зомби), если не выполняете ремонт чаще, чем ваши секунды отсрочки gc обстановка и много надгробий.
Краткий ответ: да. Служба ремонта упрощает вашу жизнь, автоматизируя эту операцию, она также разбивает ремонт на мелкие части, чтобы уменьшить рабочую нагрузку и предотвратить возникновение конфликтов ресурсов и проблем с производительностью во время ремонта. Он должен работать из коробки для большинства кластеров, в некоторых сценариях вам, возможно, придется настроить некоторые из настройки по умолчанию. Полезные рычаги: max_parallel_repairs, min_repair_time, snapshot_override
Для этого конкретного сценария, когда вы знаете, что один узел не синхронизируется примерно на день или около того, я ожидаю, что ваш кластер будет в напряжении во время ремонта. Создание деревьев Меркель требует значительных ресурсов ЦП и io. Более мелкие срезы, которые рассчитывает ремонтная служба, должны облегчить этот процесс.