Назад | Перейти на главную страницу

Как я могу определить, выходит ли из строя диск на ESXi / что означают эти ошибки?

У меня есть сервер под управлением VMware ESXi v4.1.0 348481. Он имеет аппаратный RAID10 и резервный диск SATA. У меня работает виртуальная машина, у которой есть основной загрузочный vmdk в хранилище данных RAID10 и vmdk на 600 ГБ в хранилище данных резервного диска SATA. Виртуальная машина работает под управлением Debian linux с ядром FreeBSD и использует ZFS в качестве резервного диска.

РЕДАКТИРОВАТЬ: Привод не напрямую подключен к ВМ. Он используется в качестве хранилища данных VMware, а виртуальная машина имеет vmdk в хранилище данных диска SATA. Хранилище данных не полный (только 65% заполнен)

Я зашел на сервер по SSH и обнаружил, что вчерашнее резервное копирование зависло, и zfs list или zpool list оба висели. Итак, я открыл виртуальную консоль в ESXi и с грустью увидел:

(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)

Я попытался перезагрузить виртуальную машину и получил сообщение о том, что система отключается для перезагрузки, а затем зависло. (^ C появляется, но не убивает shutdown). Я не могу прервать или kill -9 в zpool list zfs list или rsync процессы - Когда я пытаюсь, ничего не происходит.

Означает ли это, что резервный диск SATA неисправен? Или это просто ошибка ESXi?
Как в клиенте vSphere я могу определить, что диск выходит из строя? Я не видел никаких индикаторов, все в разделе «Состояние работоспособности оборудования» выглядит хорошо, и я ничего не видел в разделе «Конфигурация хранилища».
Что мне делать дальше? Должен ли я просто перезагрузить виртуальную машину?

ОБНОВИТЬ: Я просто перезагрузил виртуальную машину. Однако после того, как он вернулся в онлайн, резервный zpool был в сети:

root@timestandstill:/home/jnet# zpool status -v
  pool: backup
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        backup      ONLINE       0     0     0
          da1       ONLINE       0     0     0


errors: Permanent errors have been detected in the following files:

        /backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics

Сильно склоняюсь к замене привода ...

Эти ошибки действительно указывают на то, что один из дисков SATA обнаружил достаточно плохих блоков, чтобы исчерпать пространство для перераспределения блоков. Диск неисправен, и его нужно заменить. Я не уверен, где именно в клиенте vSphere отображается эта информация, но записи журнала довольно ясны.

Если ваше оборудование позволяет, горячая замена вполне возможна. В противном случае вам придется выключить все, чтобы произвести замену. Если эта виртуальная машина не отключилась через 30 минут, пора просто ее завершить. Это рискованно, но если его действительно повесить, то ничего не поделаешь.