Рассказ о вышедшей сетевой карте;
Я забросил конец вывода dmesg с сервера в пастебин;
Этот сервер (PowerEdge 1850) имеет два сетевых адаптера, eth0 и eth1. На eth1 определено несколько виртуальных локальных сетей, которые, в свою очередь, находятся на разных мостах, один мост имеет несколько IP-адресов. eth1 - это общедоступный интерфейс. eth0 для доступа к бэкэнду / управлению.
Сервер перешел в автономный режим в том смысле, что он перестал обслуживать общедоступные запросы, и я получил предупреждение. Я подключился через SSH к использованию IP-адреса управления на eth0, чтобы найти сервер, загрузка низкая, много места на диске, циклы ОЗУ и процессора и т. Д. Все службы были запущены и работали, но сервер не обслуживал никаких веб-страниц.
Тогда я проверил dmesg и увидел результат выше. Похоже, возникла проблема с eth1, и он не отправлял пакеты, но получал их. В выводе dmesg есть несколько сообщений «Сбросить адаптер», поэтому я предполагаю, что сервер «самовосстанавливается»?
[10716872.816012] e1000 0000:07:08.0: eth1: Reset adapter
Я побежал tcpdump
чтобы увидеть, что происходит (вывод которого я потерял!). Однако я мог видеть, что шлюз по умолчанию, который обращен к субинтерфейсам общедоступной VLAN на eth1, отправлял ARP для общедоступных IP-адресов, назначенных серверу, но не отправлял никакого ответа.
Вероятно, поэтому публичные сервисы не работали. Я перезапустил интерфейс с помощью sudo ifdown eth1 && sudo ifup eth1
который выполнен успешно, но не помог.
Я проверил таблицу arp;
user@server:~$ arp -n
Address HWtype HWaddress Flags Mask Iface
5.5.5.6 (incomplete) br12
Увидев этот неполный адрес, я сделал снимок в темноте (на самом деле не ожидая, что он сработает) и вручную добавил MAC для шлюза по умолчанию 5.5.5.6. Это не сработало.
Производственный простой был несколько минут, поэтому я перезагрузил сервер через несколько минут, и после перезагрузки все вернулось в норму.
Ниже я опубликовал содержимое / etc / network / interfaces, однако мне нужна помощь в понимании записи pastebin, которую я указал выше. Какова возможная причина того, что eth1 уволился с повседневной работы в середине рабочего дня?
allow-hotplug eth0
allow-hotplug eth1
allow-hotplug eth1.1
allow-hotplug eth1.2
auto eth0
iface eth0 inet static
address 10.0.1.25
netmask 255.255.255.0
auto eth1
iface eth1 inet manual
auto eth1.2
iface eth1.2 inet manual
vlan_raw_device eth1
auto br12
iface br12 inet static
address 10.0.0.25
netmask 255.255.255.0
bridge_ports eth1.2
bridge_stp off
auto eth1.1
iface eth1.1 inet manual
vlan_raw_device eth1
auto br11
iface br11 inet static
address 5.5.5.5
netmask 255.255.255.248
gateway 5.5.5.6
bridge_ports eth1.118
bridge_stp off
auto br11:0
iface br11:0 inet static
address 5.5.5.4
netmask 255.255.255.248
auto br11:1
iface br11:1 inet static
address 5.5.5.3
netmask 255.255.255.248
В целях отладки;
user@server:~$ uname -a
Linux server.site.com 3.4.10 #1 SMP Thu Sep 13 13:12:24 BST 2012 x86_64 GNU/Linux
user@server:~$ cat /etc/issue
Debian GNU/Linux 6.0 \n \l
Сервер работает уже 3 дня и 17 часов, ошибок в dmesg / kern.log / message / syslog нет, и он работает нормально. это это lshw
детали для сетевых карт.
Я думаю, что это была ошибка ядра, возможно, ошибка драйвера или аппаратная ошибка.
Можно попробовать поискать ошибки ядра, обновить ядро и тд.