У меня есть два внешних сервера Exchange 2003, оба являются виртуальными машинами, и оба находятся на разных физических ящиках Linux, на которых запущен сервер vmware в моем dmz.
Несколько дней назад истекло время ожидания всех моих предупреждений Nagios для одного из них, и проверки ping имели высокий уровень ошибок. На этой интерфейсной виртуальной машине обмена я увидел следующее, которое, кажется, указывает на тайм-ауты / проблемы с диском в течение этого времени в системном разделе средства просмотра событий (другие разделы не уходят очень далеко назад, становится спам-уведомлениями, которые будут иметь чтобы исправить это):
Event Type: Error
Event Source: vmscsi
Event Category: None
Event ID: 9
Date: 12/12/2009
Time: 9:25:19 AM
User: N/A
Computer: FOO
Description:
The device, \Device\Scsi\vmscsi1, did not respond within the timeout period.
На хосте Linux я не вижу ничего в / var / log / messages или / var / log / vmware (или что-то еще), что дает мне какие-либо подсказки. В журнале sar я действительно вижу более высокое значение IOWait ~ 22 в это время, чем я видел где-либо еще, обычно оно возрастает только до 11, когда выполняется резервное копирование, чего не было в это время. Может ли это произойти из-за выпадения диска из массива, кто-нибудь знает, как я проверяю это на Poweredge 2950 (используя dset?).
На другой интерфейсной виртуальной машине я получил следующее (это, я действительно не знаю, что это значит, главный браузер?):
Event Type: Error
Event Source: MRxSmb
Event Category: None
Event ID: 8003
Date: 12/12/2009
Time: 9:33:16 AM
User: N/A
Computer: FOO
Description:
The master browser has received a server announcement from the computer FOO02 that believes that it is the master browser for the domain on transport NetBT_Tcpip_{..... The master browser is stopping or an election is being forced.
Итак, помимо вышеперечисленных вопросов, я действительно пытаюсь выяснить, что произошло, поскольку все, кажется, восстановилось само по себе, есть идеи?
Обновить:
Нашел эту новую для меня утилиту megacli, но, начиная со следующего дня после этого события, я вижу много:
Code: 0x00000071
Class: 0
Locale: 0x02
Event Description: Unexpected sense: PD 03(e1/s3), CDB: 28 00 0a 8c 60 5d 00 00 08 00, Sense: f0 00 03 0a 8c 60 5d 0a 00 00 00 00 11 00 00 00 00 0
Event Data:
===========
Device ID: 3
Enclosure Index: 1
Slot Number: 3
Из /opt/MegaRAID/MegaCli/MegaCli -AdpEventLog -GetEvents -f events.log -aALL && cat events.log
. Звучит не очень хорошо, кто-нибудь знает, что это конкретно означает?
Событие главного браузера является нормальным и не связано с ним, его можно игнорировать.
Журнал RAID непонятен, но, поскольку в нем указан слот 3, я предполагаю, что ему не нравится что-то с диском в слоте 3. Документация для этого события должна быть где-то на сайте Dell или LSI.
Вы можете протестировать массив, запустив проверку массива. Я не уверен, что вы можете сделать это с помощью этой утилиты в ОС, ее можно запустить с помощью утилиты настройки RAID, доступ к которой осуществляется при загрузке.
Если у вас есть свободный слот и диск, вы можете вставить новый диск, сделать его глобальным горячим резервом, вставить диск в slot3 и позволить всему переключиться на запасной. Затем вы можете протестировать / заменить диск slot3 без ограничений по времени.