Я пытаюсь создать простое обнаружение аварийного сигнала аномалии, глядя на KPI моих серверов Linux. Мне было интересно, когда я должен отмечать тревогу, если вижу отброшенные пакеты (как packet_in, так и / или packet_out). Если я беру процент от общего числа отброшенных / полученных пакетов (и делаю то же самое для отправленных пакетов), а затем подаю сигнал тревоги, если я наблюдаю, что отбрасывается 20% или более пакетов, имеет ли это смысл?
Я понимаю, что отбрасывание (полученных) пакетов может быть нормальным явлением и не должно рассматриваться как проблема с сервером, но я считаю, что стоит отметить отметку, чтобы сообщить о более серьезной проблеме с локальной подсетью или подключенным коммутатором. Однако ошибки с отправленным пакетом могут указывать на проблему с сетевой картой или на проблему согласования скорости с подключенным устройством. Поэтому справедливо отметить потерянный пакет%> = 20? Будем очень признательны за ответ экспертов и за некоторые полезные советы по дальнейшей настройке отчетности.
Если вы хотите свести функциональность вашей сети к единой метрике (например, для целей мониторинга или построения графиков), я бы порекомендовал так называемый процент повторной передачи TCP, что довольно близко к тому, что вы предлагаете в своем вопросе.
Вы получите это число, разделив количество повторных передач TCP-сегментов на общее количество отправленных TCP-сегментов и, конечно же, умножив на 100%. Обе эти метрики должны быть легко доступны через SNMP, sar и другие функции.
Этот процент должен быть довольно близок к 0 при нормальных условиях, если значение выше 2%, скорее всего, проблема.