Назад | Перейти на главную страницу

Машины виртуальных машин RHEL6.1 зависают при создании замороженного снимка для резервного копирования

Мои виртуальные машины RHEL 6.1, работающие на хостах ESXi 5.1.0, получают замороженный когда процедура резервного копирования пытается получить замороженный снимок. Мне нужно сбросить виртуальные машины из консоли VMware. Инструмент, используемый для приостановки виртуальной машины: SYMCquiesce 1.0.0 компании Symantec. Самое странное, что не всегда выходит из строя - бэкап запускается каждую неделю ... но он выходит из строя только каждые две недели.

После прочтения документа VMware http://kb.vmware.com/kb/2038606 и документ RedHat https://access.redhat.com/solutions/484303 и поскольку мне не разрешили обновиться до RHEL 6.4, я решил понизить версию VMware Tools до ESX 5.0. В соответствии с этот стол, Я удалил VMware tools 9.0.15 и установил обратно 8.6.11.26309 (сборка-1310128). Но эта старая версия не решила проблему ... виртуальные машины зависают ... каждые две недели.

В /etc/vmware-tools/tools.conf содержит

[vmbackup]
enableSyncDriver = false

[logging]
log = true
vmtoolsd.level = warning
vmtoolsd.handler = vmx
vmss.level = warning
vmss.handler = vmx

Раздел регистрации включен в соответствии с этим Документ VMware чтобы получить сообщения журнала на хосте ESXi.

Согласно файлу Symantec README, сценарий /usr/sbin/pre-freeze-script содержит

/opt/SYMCquiesce/bin/freeze

В vmware.log Файл, расположенный в хранилище данных хоста ESXi, после успешного создания моментального снимка содержит следующие строки:

2016-01-11T23:39:27.849Z| vmx| I120: Vix: [12153447 vigorCommands.c:481]: VigorSnapshotManager_Take: takeOptions=136, clientFlags=0, displayName=NBU_SNAPSHOT backupcentral 1452555565    
2016-01-11T23:39:27.879Z| vmx| I120: SnapshotVMX_TakeSnapshot start: 'NBU_SNAPSHOT backupcentral 1452555565', deviceState=0, logging=0, quiesced=1, forceNative=0, tryNative=1, sibling=0 saveAllocMaps=0 cb=18CA48E0, cbData=19CADF40
2016-01-11T23:39:27.893Z| vmx| I120: DISKLIB-VMFS  : "/vmfs/volumes/5314ce6f-2d501c33-de3c-a41f72000c75/myrhel61/solr-flat.vmdk" : open successful (65557) size = 188978561024, hd = 0. Type 3
2016-01-11T23:39:27.893Z| vmx| I120: DISKLIB-VMFS  : "/vmfs/volumes/5314ce6f-2d501c33-de3c-a41f72000c75/myrhel61/solr-flat.vmdk" : closed.
2016-01-11T23:39:27.927Z| vcpu-2| I120: ToolsBackup: changing quiesce state: IDLE -> STARTED
2016-01-11T23:39:29.692Z| vcpu-2| I120: ToolsBackup: changing quiesce state: STARTED -> COMMITTED
2016-01-11T23:39:29.693Z| vcpu-0| I120: Destroying virtual dev for scsi0:0 vscsi=10159
2016-01-11T23:39:29.693Z| vcpu-0| I120: VMMon_VSCSIStopVports: No such target on adapter
2016-01-11T23:39:29.742Z| vcpu-0| I120: SnapshotVMXTakeSnapshotCB: Enter checkpoint status 1, mode 0.

Но когда это не удается, похоже, что инструменты VMware не реагируют - обратите внимание на строки после IDLE -> STARTED:

2016-01-18T23:03:40.412Z| vmx| I120: Vix: [12153447 vigorCommands.c:481]: VigorSnapshotManager_Take: takeOptions=136, clientFlags=0, displayName=NBU_SNAPSHOT backupcentral 1453158218
2016-01-18T23:03:40.432Z| vmx| I120: SnapshotVMX_TakeSnapshot start: 'NBU_SNAPSHOT backupcentral 1453158218', deviceState=0, logging=0, quiesced=1, forceNative=0, tryNative=1, sibling=0 saveAllocMaps=0 cb=18CA48E0, cbData=19B04E90
2016-01-18T23:03:40.519Z| vmx| I120: DISKLIB-VMFS  : "/vmfs/volumes/5314ce6f-2d501c33-de3c-a41f72000c75/myrhel61/solr-flat.vmdk" : open successful (65557) size = 188978561024, hd = 0. Type 3
2016-01-18T23:03:40.519Z| vmx| I120: DISKLIB-VMFS  : "/vmfs/volumes/5314ce6f-2d501c33-de3c-a41f72000c75/myrhel61/solr-flat.vmdk" : closed.
2016-01-18T23:03:40.522Z| vcpu-0| I120: ToolsBackup: changing quiesce state: IDLE -> STARTED
2016-01-18T23:03:58.715Z| vmx| I120: GuestRpcSendTimedOut: message to toolbox timed out.
2016-01-18T23:04:03.814Z| vmx| I120: Tools: Tools heartbeat timeout.
2016-01-18T23:04:13.716Z| vmx| I120: GuestRpcSendTimedOut: message to toolbox timed out.
2016-01-18T23:04:13.716Z| vmx| I120: GuestRpc: app toolbox's second ping timeout; assuming app is down
2016-01-18T23:04:13.717Z| vmx| I120: ToolsBackup: changing quiesce state: STARTED -> DONE
2016-01-18T23:04:13.717Z| vmx| I120: SnapshotVMXTakeSnapshotComplete: done with snapshot 'NBU_SNAPSHOT backupcentral 1453158218': 0
2016-01-18T23:04:13.717Z| vmx| I120: SnapshotVMXTakeSnapshotComplete: Snapshot 0 failed: Failed to quiesce the virtual machine (40).
2016-01-18T23:04:13.718Z| vmx| I120: GuestRpc: Reinitializing Channel 0(toolbox)
2016-01-18T23:04:13.718Z| vmx| I120: GuestMsg: Channel 0, Cannot unpost because the previous post is already completed
2016-01-18T23:04:13.718Z| vmx| I120: GuestRpc: Channel 0 reinitialized.
2016-01-18T23:04:13.718Z| vmx| I120: GuestRpc: Channel 0 reinitialized.

Есть ли у кого-нибудь идеи решить эту проблему?

Заранее спасибо.

PD: зависает и другая виртуальная машина RHEL5.

обновление 1

Файлы журнала программного обеспечения SYMCquiesce не существует в те даты, когда произошел "замораживающий" сеанс резервного копирования. В те дни, когда сеанс резервного копирования работал успешно, файлы журнала содержат следующее сообщение:

Unable to allocate shared memory

Здесь вы видите календарь последних сеансов резервного копирования:

    date       reboot   log file
------------   ------   --------
Feb 22, 2016    no         yes
Feb 29, 2016    yes        no
Mar  7, 2016    no         yes
Mar 14, 2016    no         no
Mar 21, 2016    yes        no
Mar 28, 2016    no         yes
Apr  4, 2016    yes        no

14 марта все прошло нормально, потому что сеанс резервного копирования не запускался.

окончательное обновление

После перехода на версию VMware 5.5 эта проблема исчезла.