У меня есть сервер Ubuntu 18.04, который отбрасывает полученные пакеты, и я не могу понять, почему.
Вот график отброшенных пакетов из netdata:
На сервере работает несколько контейнеров докеров и сетей, поэтому имеется несколько мостов Linux и интерфейсов veth. Однако проблема связана с физическим интерфейсом. Нет настроенных VLAN.
На машине нет правил IPtables, кроме тех, которые создаются Docker.
Сетевая карта - это Intel I210 (igb
Водитель).
Копирование данных через TCP (rsync) работает на линейной скорости 1 Гбит / с, поэтому не многие TCP-пакеты могут быть повреждены. (Я ожидал, что падение TCP сильно повредит производительности передачи из-за уменьшения размера окна.)
# uname -a
Linux epyc 5.3.0-51-generic #44~18.04.2-Ubuntu SMP Thu Apr 23 14:27:18 UTC 2020 x86_64 x86_64 x86_64 GNU/Linux
RX-DRP можно увидеть на eno1
, который является единственным физическим интерфейсом, который есть на машине. Он увеличивается с прибл. 2 пакета / сек с очень низким трафиком (admin ssh, только несколько DNS-запросов).
# netstat -ni
Kernel Interface table
Iface MTU RX-OK RX-ERR RX-DRP RX-OVR TX-OK TX-ERR TX-DRP TX-OVR Flg
br-69eb0 1500 45768 0 0 0 41072 0 0 0 BMRU
br-bf2c7 1500 71 0 0 0 85 0 0 0 BMRU
br-f4e34 1500 187676 0 0 0 192128 0 0 0 BMRU
docker0 1500 62739 0 0 0 70194 0 0 0 BMRU
eno1 1500 55517866 0 271391 35 19796132 0 0 0 BMRU
lo 65536 7381 0 0 0 7381 0 0 0 LRU
veth078d 1500 40657 0 0 0 48148 0 0 0 BMRU
veth231e 1500 2582 0 0 0 2323 0 0 0 BMRU
veth2f4f 1500 19 0 0 0 164 0 0 0 BMRU
Я попытался отключить все настройки разгрузки оборудования RX, которые я мог редактировать, но это не помогло.
Увеличил буферы, тоже не помогло.
# ethtool -S eno1 | grep rx
rx_packets: 55580744
rx_bytes: 76852450760
rx_broadcast: 294019
rx_multicast: 228993
rx_crc_errors: 0
rx_no_buffer_count: 0
rx_missed_errors: 0
rx_long_length_errors: 0
rx_short_length_errors: 0
rx_align_errors: 0
rx_flow_control_xon: 0
rx_flow_control_xoff: 0
rx_long_byte_count: 76852450760
rx_smbus: 66009
os2bmc_rx_by_bmc: 19137
os2bmc_rx_by_host: 190
rx_hwtstamp_cleared: 0
rx_errors: 0
rx_length_errors: 0
rx_over_errors: 0
rx_frame_errors: 0
rx_fifo_errors: 35
rx_queue_0_packets: 16271369
rx_queue_0_bytes: 22437386945
rx_queue_0_drops: 0
rx_queue_0_csum_err: 0
rx_queue_0_alloc_failed: 0
rx_queue_1_packets: 5913593
rx_queue_1_bytes: 6458814275
rx_queue_1_drops: 0
rx_queue_1_csum_err: 1
rx_queue_1_alloc_failed: 0
rx_queue_2_packets: 29208019
rx_queue_2_bytes: 42357497354
rx_queue_2_drops: 35
rx_queue_2_csum_err: 0
rx_queue_2_alloc_failed: 0
rx_queue_3_packets: 4121883
rx_queue_3_bytes: 5366292094
rx_queue_3_drops: 0
rx_queue_3_csum_err: 0
rx_queue_3_alloc_failed: 0
# ethtool -k eno1 | grep -vE 'tx|fixed'
Features for eno1:
rx-checksumming: off
scatter-gather: off
tcp-segmentation-offload: off
udp-fragmentation-offload: off
generic-segmentation-offload: off
generic-receive-offload: off
rx-vlan-offload: off
ntuple-filters: off
receive-hashing: off
rx-all: off
hw-tc-offload: on
# ethtool -g eno1
Ring parameters for eno1:
Pre-set maximums:
RX: 4096
RX Mini: 0
RX Jumbo: 0
TX: 4096
Current hardware settings:
RX: 256
RX Mini: 0
RX Jumbo: 0
TX: 256
Из этот блог Я нашел инструмент секундомер, что дает следующий результат:
# sudo ./dropwatch -l kas
Initalizing kallsyms db
dropwatch> start
Enabling monitoring...
Kernel monitoring activated.
Issue Ctrl-C to stop monitoring
6 drops at __netif_receive_skb_core+4a0 (0xffffffff979002d0)
1 drops at icmpv6_rcv+310 (0xffffffff97a2e6a0)
1 drops at ip_rcv_finish_core.isra.18+1b4 (0xffffffff97976644)
1 drops at __udp4_lib_rcv+a34 (0xffffffff979b0fc4)
3 drops at __udp4_lib_rcv+a34 (0xffffffff979b0fc4)
1 drops at unix_release_sock+1a7 (0xffffffff979f9977)
1 drops at unix_release_sock+1a7 (0xffffffff979f9977)
1 drops at sk_stream_kill_queues+4d (0xffffffff978eeffd)
2 drops at unix_stream_connect+2e5 (0xffffffff979fae75)
12 drops at __netif_receive_skb_core+4a0 (0xffffffff979002d0)
1 drops at sk_stream_kill_queues+4d (0xffffffff978eeffd)
1 drops at sk_stream_kill_queues+4d (0xffffffff978eeffd)
2 drops at __udp4_lib_rcv+a34 (0xffffffff979b0fc4)
2 drops at unix_stream_connect+2e5 (0xffffffff979fae75)
6 drops at ip_forward+1b5 (0xffffffff97978615)
1 drops at unix_release_sock+1a7 (0xffffffff979f9977)
1 drops at __udp4_lib_rcv+a34 (0xffffffff979b0fc4)
1 drops at sk_stream_kill_queues+4d (0xffffffff978eeffd)
1 drops at sk_stream_kill_queues+4d (0xffffffff978eeffd)
2 drops at unix_stream_connect+2e5 (0xffffffff979fae75)
2 drops at unix_stream_connect+2e5 (0xffffffff979fae75)
1 drops at unix_release_sock+1a7 (0xffffffff979f9977)
12 drops at __netif_receive_skb_core+4a0 (0xffffffff979002d0)
6 drops at ip_forward+1b5 (0xffffffff97978615)
1 drops at tcp_v6_rcv+16c (0xffffffff97a3829c)
2 drops at unix_stream_connect+2e5 (0xffffffff979fae75)
12 drops at __netif_receive_skb_core+4a0 (0xffffffff979002d0)
1 drops at sk_stream_kill_queues+4d (0xffffffff978eeffd)
2 drops at unix_stream_connect+2e5 (0xffffffff979fae75)
^C
Я прочитал это, поскольку большинство падений происходит в __netif_receive_skb_core
.
В Руководство по настройке производительности сети Red Hat Enterprise Linux говорит (глава «Очередь адаптера»):
В
netif_receive_skb()
Функция ядра найдет соответствующий ЦП для пакета и поставит пакеты в очередь этого ЦП. Если очередь для этого процессора заполнена и уже имеет максимальный размер, пакеты будут отброшены. Чтобы настроить этот параметр, сначала определите, нужно ли увеличивать объем невыполненной работы. В/proc/net/softnet_stat
файл содержит счетчик во 2-м столбце, который увеличивается при переполнении очереди невыполненных работ netdev. Если это значение увеличивается со временем, тогдаnetdev_max_backlog
нужно увеличить.
Увеличение netdev_max_backlog
не помогло, но это привело меня к SoftIRQ:
Согласно документу Red Hat, у SoftIRQ есть несколько интересных аспектов:
# cat /proc/net/softnet_stat
00024f83 00000000 000000e8 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000
000152c0 00000000 0000008d 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000
00010238 00000000 00000061 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000
00010d8c 00000000 00000081 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000
000f3cb3 00000000 00000d83 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000
0009e391 00000000 0000050d 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000
0025265b 00000000 00001023 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000
00111a24 00000000 0000095a 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000
008bcbf0 00000000 0000355d 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000
004875d8 00000000 00002408 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000
0001c93c 00000000 000000cc 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000
00025fdb 00000000 000000fa 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000
0005d1e5 00000000 000005f2 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000
000f9bfd 00000000 00000b9e 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000
000448bc 00000000 00000407 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000
00044f25 00000000 00000415 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000
Как видите, 2-й столбец всегда равен 0, что не соответствует приведенному выше утверждению о netif_receive_skb()
, но я вижу постоянно увеличивающиеся значения в 3-й столбец.
Это описано в «Промахи SoftIRQ». Опять же, цитируя документ Red Hat:
Иногда необходимо увеличить время, в течение которого SoftIRQ может выполняться на ЦП. Это известно как
netdev_budget
. Значение бюджета по умолчанию - 300. Это значение можно удвоить, если в 3-м столбце/proc/net/softnet_stat
увеличивается, что указывает на то, что SoftIRQ не получил достаточно процессорного времени
Надо увеличивать net.core.netdev_budget
до 600. Ничего не изменилось.
Статистика по-прежнему показывает трафик BMC на общем интерфейсе. С тех пор я пытался переместить BMC в специальный интерфейс, но это не улучшило ситуацию.
Этот документ by SuSE дает некоторые законные причины для отбрасывания пакетов и метод подтверждения того, что отбрасывания безвредны: они должны исчезнуть при установке интерфейса в режим PROMISC, поскольку они вызваны неизвестными протоколами или неправильными тегами VLAN. Я включил промисковый режим, но пакеты все равно сбрасываются.
Подозревая, что кадры большого размера слишком большие, я изменил размер MTU на 9000. Это не помогло.
Я наконец нашел источник проблемы: это фреймы Ethernet с неизвестным типом Ethernet. Я думал, что эти капли должны исчезнуть в режиме PROMISC, но, очевидно, этого не происходит.
В моем случае это был ethertype 0x8912
и 0x88e1
фреймы, отправленные маршрутизатором AVM FritzBox для обнаружения адаптеров Poweline. Чтобы подтвердить, я блокирую эти кадры через nftables
с этим набором правил в /etc/nftables.conf
:
table netdev filter {
chain ingress {
type filter hook ingress device eno1 priority 0; policy accept;
meta protocol {0x8912, 0x88e1} drop
}
}
После этого пропали дропы сети! Даже если они не заблокированы, они безвредны и не будут мешать работе моего сервера. Я все равно буду держать их заблокированными, чтобы мониторинг был чистым и видел реальные падения интерфейса / проблемы с производительностью.
Дополнительную информацию об этих рамах можно найти здесь: