Назад | Перейти на главную страницу

Сброс моего экземпляра виртуальной машины GCE по непонятной причине?

Я использую 48vCPU, 96GB RAM VM на Google Compute Engine. Когда я запускаю несколько контейнеров докеров, которые выполняют некоторые задачи, экземпляр виртуальной машины, кажется, «сбрасывается».

В gcloud compute operations list ничего не предлагает, потому что не содержит записи в метке времени, когда произошел сброс.

Ниже представлена ​​информация о мониторинге и системный журнал неисправной машины.

Jan 14 17:18:08 vehicle-fleet-big-2 kernel: [ 3203.812836] br-0d70adaeac7e: port 46(veth5ec217a) entered disabled state
Jan 14 17:18:08 vehicle-fleet-big-2 kernel: [ 3203.813443] br-0d70adaeac7e: port 47(veth2e644f5) entered disabled state
Jan 14 17:18:08 vehicle-fleet-big-2 kernel: [ 3203.813824] br-0d70adaeac7e: port 48(veth83e9ba8) entered disabled state
Jan 14 17:18:08 vehicle-fleet-big-2 kernel: [ 3204.008971] eth0: renamed from veth7e29e09
Jan 14 17:18:08 vehicle-fleet-big-2 kernel: [ 3204.057313] IPv6: ADDRCONF(NETDEV_CHANGE): vethd8ccbfc: link becomes ready
Jan 14 17:18:08 vehicle-fleet-big-2 kernel: [ 3204.057405] br-0d70adaeac7e: port 45(vethd8ccbfc) entered blocking state
Jan 14 17:18:08 vehicle-fleet-big-2 kernel: [ 3204.057408] br-0d70adaeac7e: port 45(vethd8ccbfc) entered forwarding state
Jan 14 17:18:08 vehicle-fleet-big-2 systemd-networkd[1204]: vethd8ccbfc: Gained carrier
Jan 14 17:18:09 vehicle-fleet-big-2 kernel: [ 3205.125463] eth0: renamed from vethb02bb32
Jan 14 17:18:09 vehicle-fleet-big-2 systemd-networkd[1204]: veth5ec217a: Gained carrier
Jan 14 17:18:09 vehicle-fleet-big-2 kernel: [ 3205.161119] IPv6: ADDRCONF(NETDEV_CHANGE): veth5ec217a: link becomes ready
Jan 14 17:18:09 vehicle-fleet-big-2 kernel: [ 3205.161222] br-0d70adaeac7e: port 46(veth5ec217a) entered blocking state
Jan 14 17:18:09 vehicle-fleet-big-2 kernel: [ 3205.161225] br-0d70adaeac7e: port 46(veth5ec217a) entered forwarding state
Jan 14 17:18:10 vehicle-fleet-big-2 systemd-networkd[1204]: vethd8ccbfc: Gained IPv6LL
Jan 14 17:18:11 vehicle-fleet-big-2 kernel: [ 3206.284834] eth0: renamed from veth2ab704d
Jan 14 17:18:11 vehicle-fleet-big-2 systemd-networkd[1204]: veth83e9ba8: Gained carrier
Jan 14 17:18:11 vehicle-fleet-big-2 kernel: [ 3206.336989] IPv6: ADDRCONF(NETDEV_CHANGE): veth83e9ba8: link becomes ready
Jan 14 17:18:11 vehicle-fleet-big-2 kernel: [ 3206.337073] br-0d70adaeac7e: port 48(veth83e9ba8) entered blocking state
Jan 14 17:18:11 vehicle-fleet-big-2 kernel: [ 3206.337075] br-0d70adaeac7e: port 48(veth83e9ba8) entered forwarding state
Jan 14 17:18:11 vehicle-fleet-big-2 systemd-networkd[1204]: veth5ec217a: Gained IPv6LL
Jan 14 17:18:12 vehicle-fleet-big-2 kernel: [ 3207.220883] eth0: renamed from veth35b659d
Jan 14 17:18:12 vehicle-fleet-big-2 systemd-networkd[1204]: veth2e644f5: Gained carrier
Jan 14 17:18:12 vehicle-fleet-big-2 kernel: [ 3207.260969] IPv6: ADDRCONF(NETDEV_CHANGE): veth2e644f5: link becomes ready
Jan 14 17:18:12 vehicle-fleet-big-2 kernel: [ 3207.261052] br-0d70adaeac7e: port 47(veth2e644f5) entered blocking state
Jan 14 17:18:12 vehicle-fleet-big-2 kernel: [ 3207.261056] br-0d70adaeac7e: port 47(veth2e644f5) entered forwarding state
Jan 14 17:18:12 vehicle-fleet-big-2 systemd-networkd[1204]: veth83e9ba8: Gained IPv6LL
Jan 14 17:18:12 vehicle-fleet-big-2 systemd[1]: Stopping User Manager for UID 1001...
Jan 14 17:18:12 vehicle-fleet-big-2 systemd[17335]: Stopped target Default.
Jan 14 17:18:12 vehicle-fleet-big-2 systemd[17335]: Stopped target Basic System.
Jan 14 17:18:12 vehicle-fleet-big-2 systemd[17335]: Stopped target Sockets.
Jan 14 17:18:12 vehicle-fleet-big-2 systemd[17335]: Closed GnuPG cryptographic agent and passphrase cache.
Jan 14 17:18:12 vehicle-fleet-big-2 systemd[17335]: Closed GnuPG cryptographic agent (ssh-agent emulation).
Jan 14 17:18:12 vehicle-fleet-big-2 systemd[17335]: Closed GnuPG cryptographic agent and passphrase cache (access for web browsers).
Jan 14 17:18:12 vehicle-fleet-big-2 systemd[17335]: Stopped target Paths.
Jan 14 17:18:12 vehicle-fleet-big-2 systemd[17335]: Closed GnuPG cryptographic agent and passphrase cache (restricted).
Jan 14 17:18:12 vehicle-fleet-big-2 systemd[17335]: Closed GnuPG network certificate management daemon.
Jan 14 17:18:12 vehicle-fleet-big-2 systemd[17335]: Reached target Shutdown.
Jan 14 17:18:12 vehicle-fleet-big-2 systemd[17335]: Starting Exit the Session...
Jan 14 17:18:12 vehicle-fleet-big-2 systemd[17335]: Stopped target Timers.
Jan 14 17:18:12 vehicle-fleet-big-2 systemd[17335]: Received SIGRTMIN+24 from PID 21047 (kill).
Jan 14 17:18:12 vehicle-fleet-big-2 systemd[1]: Stopped User Manager for UID 1001.
Jan 14 17:18:12 vehicle-fleet-big-2 systemd[1]: Removed slice User Slice of filip.
Jan 14 17:18:13 vehicle-fleet-big-2 systemd-networkd[1204]: veth2e644f5: Gained IPv6LL
Jan 14 17:18:21 vehicle-fleet-big-2 systemd[1]: Created slice User Slice of filip.
Jan 14 17:18:21 vehicle-fleet-big-2 systemd[1]: Starting User Manager for UID 1001...
Jan 14 17:18:21 vehicle-fleet-big-2 systemd[1]: Started Session 360 of user filip.
Jan 14 17:18:21 vehicle-fleet-big-2 systemd[25738]: Reached target Paths.
Jan 14 17:18:21 vehicle-fleet-big-2 systemd[25738]: Listening on GnuPG network certificate management daemon.
Jan 14 17:18:21 vehicle-fleet-big-2 systemd[25738]: Listening on GnuPG cryptographic agent (ssh-agent emulation).
Jan 14 17:18:21 vehicle-fleet-big-2 systemd[25738]: Listening on GnuPG cryptographic agent and passphrase cache.
Jan 14 17:18:21 vehicle-fleet-big-2 systemd[25738]: Listening on GnuPG cryptographic agent and passphrase cache (access for web browsers).
Jan 14 17:18:21 vehicle-fleet-big-2 systemd[25738]: Listening on GnuPG cryptographic agent and passphrase cache (restricted).
Jan 14 17:18:21 vehicle-fleet-big-2 systemd[25738]: Reached target Sockets.
Jan 14 17:18:21 vehicle-fleet-big-2 systemd[25738]: Reached target Timers.
Jan 14 17:18:21 vehicle-fleet-big-2 systemd[25738]: Reached target Basic System.
Jan 14 17:18:21 vehicle-fleet-big-2 systemd[25738]: Reached target Default.
Jan 14 17:18:21 vehicle-fleet-big-2 systemd[25738]: Startup finished in 73ms.
Jan 14 17:18:21 vehicle-fleet-big-2 systemd[1]: Started User Manager for UID 1001.
Jan 14 17:18:22 vehicle-fleet-big-2 systemd[1]: Stopping User Manager for UID 1001...
Jan 14 17:18:22 vehicle-fleet-big-2 systemd[25738]: Stopped target Default.
Jan 14 17:18:22 vehicle-fleet-big-2 systemd[25738]: Stopped target Basic System.
Jan 14 17:18:22 vehicle-fleet-big-2 systemd[25738]: Stopped target Paths.
Jan 14 17:18:22 vehicle-fleet-big-2 systemd[25738]: Stopped target Timers.
Jan 14 17:18:22 vehicle-fleet-big-2 systemd[25738]: Stopped target Sockets.
Jan 14 17:18:22 vehicle-fleet-big-2 systemd[25738]: Closed GnuPG network certificate management daemon.
Jan 14 17:18:22 vehicle-fleet-big-2 systemd[25738]: Closed GnuPG cryptographic agent and passphrase cache (restricted).
Jan 14 17:18:22 vehicle-fleet-big-2 systemd[25738]: Closed GnuPG cryptographic agent and passphrase cache.
Jan 14 17:18:22 vehicle-fleet-big-2 systemd[25738]: Closed GnuPG cryptographic agent and passphrase cache (access for web browsers).
Jan 14 17:18:22 vehicle-fleet-big-2 systemd[25738]: Closed GnuPG cryptographic agent (ssh-agent emulation).
Jan 14 17:18:22 vehicle-fleet-big-2 systemd[25738]: Reached target Shutdown.
Jan 14 17:18:22 vehicle-fleet-big-2 systemd[25738]: Starting Exit the Session...
Jan 14 17:18:22 vehicle-fleet-big-2 systemd[25738]: Received SIGRTMIN+24 from PID 27228 (kill).
Jan 14 17:18:22 vehicle-fleet-big-2 systemd[1]: Stopped User Manager for UID 1001.
Jan 14 17:18:22 vehicle-fleet-big-2 systemd[1]: Removed slice User Slice of filip.

---- HERE IS WHERE THE RESET SEEM TO HAPPEN ---

Jan 14 17:18:54 vehicle-fleet-big-2 systemd-modules-load[808]: Inserted module 'iscsi_tcp'
Jan 14 17:18:54 vehicle-fleet-big-2 systemd-modules-load[808]: Inserted module 'ib_iser'
Jan 14 17:18:54 vehicle-fleet-big-2 systemd[1]: Started Remount Root and Kernel File Systems.
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000] Linux version 4.15.0-1026-gcp (buildd@lgw01-amd64-013) (gcc version 7.3.0 (Ubuntu 7.3.0-16ubuntu3)) #27-Ubuntu SMP Thu Dec 6 18:27:01 UTC 2018 (Ubuntu 4.15.0-1026.27-gcp 4.15.18)
Jan 14 17:18:54 vehicle-fleet-big-2 systemd[1]: Started Uncomplicated firewall.
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-4.15.0-1026-gcp root=UUID=3d6dfdd5-865f-4188-80fb-f09f9f8b3269 ro scsi_mod.use_blk_mq=Y console=ttyS0
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000] KERNEL supported cpus:
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000]   Intel GenuineIntel
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000]   AMD AuthenticAMD
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000]   Centaur CentaurHauls
Jan 14 17:18:54 vehicle-fleet-big-2 systemd[1]: Started Set the console keyboard layout.
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000] x86/fpu: Supporting XSAVE feature 0x001: 'x87 floating point registers'
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000] x86/fpu: Supporting XSAVE feature 0x002: 'SSE registers'
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000] x86/fpu: Supporting XSAVE feature 0x004: 'AVX registers'
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000] x86/fpu: xstate_offset[2]:  576, xstate_sizes[2]:  256
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000] x86/fpu: Enabled xstate features 0x7, context size is 832 bytes, using 'standard' format.
Jan 14 17:18:54 vehicle-fleet-big-2 systemd[1]: Mounted POSIX Message Queue File System.
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000] e820: BIOS-provided physical RAM map:
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000] BIOS-e820: [mem 0x0000000000000000-0x000000000009fbff] usable
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000] BIOS-e820: [mem 0x000000000009fc00-0x000000000009ffff] reserved
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000] BIOS-e820: [mem 0x00000000000f0000-0x00000000000fffff] reserved
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000] BIOS-e820: [mem 0x0000000000100000-0x00000000bfffafff] usable
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000] BIOS-e820: [mem 0x00000000bfffb000-0x00000000bfffffff] reserved
Jan 14 17:18:54 vehicle-fleet-big-2 systemd[1]: Mounted Kernel Debug File System.
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000] BIOS-e820: [mem 0x00000000fffbc000-0x00000000ffffffff] reserved
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000] BIOS-e820: [mem 0x0000000100000000-0x000000183fffffff] usable
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000] NX (Execute Disable) protection: active
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000] SMBIOS 2.4 present.
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000] DMI: Google Google Compute Engine/Google Compute Engine, BIOS Google 01/01/2011
Jan 14 17:18:54 vehicle-fleet-big-2 kernel: [    0.000000] Hypervisor detected: KVM

Это похоже на обычную перезагрузку, инициируемую изнутри виртуальной машины - обратите внимание на все «остановленные» журналы systemd - они указывают на то, что systemd делал что-то специально. Вероятность смерти виртуальных машин GCE очень мала (например, при внезапном отказе оборудования), но это не похоже на то, что у вас здесь.

Также обратите внимание Jan 14 17:18:12 vehicle-fleet-big-2 systemd[1]: Stopping User Manager for UID 1001... строка журнала. Я предлагаю вам выяснить, у какого пользователя UID 1001, и проверить, что они делали в то время.

Я бы отказался от любых проблем с живой миграцией, согласно документации Google Cloud Platform о живой миграции:

«Живая миграция не изменяет никаких атрибутов или свойств самой ВМ. В процессе динамической миграции просто переносится работающая ВМ с одного хост-компьютера на другой хост-компьютер в той же зоне. Все свойства и атрибуты ВМ остаются неизменными, включая внутренний и внешний IP-адрес. адреса, метаданные экземпляра, данные и тома блочного хранилища, состояние ОС и приложения, сетевые настройки, сетевые подключения и т. д. " https://cloud.google.com/compute/docs/instances/live-migration

Таким образом, невозможно, чтобы живая миграция могла что-либо изменить внутри вашего экземпляра, также отключена возможность вытеснения.

Как вы упомянули при запуске списков операций вычислений gcloud, любая отображаемая операция не совпадает с меткой времени, когда происходит это событие, возможно, попробуйте посмотреть на панели мониторинга активности и ведении журнала Stackdriver.

Глядя на ваши журналы, интересно, почему система создает пользовательский фрагмент, достигает цели выключения и через несколько секунд удаляет его, я бы посоветовал вам использовать команду systemd-cgtop для отслеживания контрольных групп вашего экземпляра и использования последний , чтобы узнать, какие пользователи подключились к вашему экземпляру, отметку времени и исходный IP-адрес.

Наконец, какие задачи вы выполняете с помощью Docker?