Назад | Перейти на главную страницу

Сбой моментального снимка виртуальной машины, за которым следует зависший сервер

Вчера у нас произошел довольно неприятный инцидент.
Во время обычного резервного копирования моментального снимка произошел сбой машины со следующей ошибкой:

Backup virtual machine
Cannot complete the operation. See the event log for details.
Incremental Forever - Incremental

С последующим:

Create virtual machine snapshot
An error occurred while saving the snapshot: msg.snapshot.error-QUIESCINGERROR.

Восемь часов спустя сработало следующее резервное копирование и моментальный снимок, и все прошло успешно.
Однако сама машина полностью не отвечала, а установленный на ней SQL Server выдавал ошибки ввода-вывода.

На самой машине каждые 30 секунд в течение следующих 12 часов появлялось следующее предупреждение:

Reset to device, \Device\RaidPort0, was issued.

SQL Server при попытке выполнить любой запрос к базам данных выдал следующую ошибку:

Time-out occurred while waiting for buffer latch type 2 for page

И в журналах SQL мы могли найти следующую ошибку:

SQL Server has encountered 1 occurrence(s) of I/O requests taking longer than 15 seconds to complete on file 

В итоге мы попытались перемонтировать базы данных, перезапустить службы (SQL Server и службы виртуальных дисков). Но в итоге единственным выходом стал перезапуск сервера.

Что происходит во время процесса создания снимков VSphere, что может вызвать эту цепочку событий?
Если это связано со снимком состояния VSphere, зачем это исправлять при перезагрузке?