Каждый месяц один из моих серверов с VMware 4.1 переставал отвечать. Единственный способ восстановить его - это выполнить полную перезагрузку. Когда это произошло, я мог подключиться к VMware, но не мог ничего делать, кроме навигации и просмотра информации.
Сервер - это Dell PowerEdge R210 с двумя дисками SATA емкостью 1 ТБ и Raid-контроллером Dell SAS 6 / iR Adapter (зеркалирование дисков, без батареи). У меня другой такой же сервер работает без проблем.
Я заменил сервер, чтобы провести несколько тестов и выяснить это. Пока что я: обновил прошивку BIOS и контроллера Raid, переустановил VMware, заменил все модули RAM, но это не решило проблему.
Я попытался установить Ubuntu на сервер, и проблема не существует, только при запуске VMware.
Это произошло примерно 10 раз, и похоже, что это произойдет при большой нагрузке на диск.
Сообщения об ошибках выглядят следующим образом:
Потеряно подключение к запоминающему устройству naa.600508e000000000a528c060b1275b09. Путь vmhba1: C1: T0: L0 не работает. Затронутые хранилища данных: «», «datastore1», «Hypervisor1», «Hypervisor2», «Hypervisor3».
Утрачен доступ к тому 50520233-c467e816-a5a1-0026b97a4010 (datastore1) из-за проблем с подключением. Попытка восстановления находится в процессе, и о результатах будет сообщено в ближайшее время.
Вот записи журнала:
Возможны таймауты диска SATA. У вас может быть плохой или провал диск.
Есть ли на вашем контроллере PERC кэш с резервным питанием от батареи?
Видеть: Как может один диск в аппаратном массиве SATA RAID-10 остановить весь массив?