У меня есть настройка с узлами с drbd для синхронизации kvm VPS для резервного копирования. Таким образом, vps активен только на одном узле. На активном узле установлено 4 квм впс.
Два узла имеют выделенный интерфейс 10G для синхронизации drbd. Так что это не должно вызывать проблем с io.
Sysbench дает производительность диска io около 400 Мбит / с.
Проблема в том, что через случайные промежутки времени один из VPS начинает достигать пика io со скоростью около 400 МБ / с (тот же предел io для диска) и перестает отвечать. Остальные vpses все еще реагируют на запросы. Я не могу найти причину большого количества операций ввода-вывода в данный момент. Сервер не отвечает, поэтому в данный момент я не могу войти в систему по ssh. Я использую telegraf-> infxdb для мониторинга vps. Там я вижу, что скорость ввода-вывода повышается, но я не уверен, как я могу использовать его, чтобы узнать, какое приложение / пользователь вызывает высокую нагрузку и / или почему только этот vps затронут, но не другие vpses, в то время как они используют те же самые подкладываемые drbd / disks.
Любые предложения о том, как это отладить?
Ты можешь использовать iotop
чтобы определить, какой процесс на вашем KVM генерирует 400 МБ / с ввода-вывода, если вы случайно поймаете его в один из «случайных моментов».
Или вы можете использовать что-то вроде pidstat -d
для записи файлов отчетов через некоторый интервал, чтобы вы могли позже просмотреть, какой процесс завершился с вашими дисками.
400 МБ / с - это большой объем операций ввода-вывода, который нельзя не учитывать, так что я надеюсь, вы это отследите!