Наш экземпляр EC2 (Windows Server 2008) несколько раз давал сбой в течение последних 3 месяцев (последний раз был сегодня в 1:05 EST). При просмотре файла MEMORY.DMP мы заметили, что возможной причиной сбоев является файл rhelnet.sys (драйвер сетевой карты RedHat PV).
Сразу после сбоя серверный просмотрщик событий содержит следующие записи:
Critical - Kernel Power:
The system has rebooted without cleanly shutting down first.
This error could be caused if the system stopped responding, crashed, or lost power unexpectedly.
BugCheck:
The computer has rebooted from a bugcheck. The bugcheck was:
0x000000d1 (0x000000000000002d, 0x0000000000000002, 0x0000000000000000, 0xfffff88001402d14).
A dump was saved in: C:\Windows\MEMORY.DMP. Report Id: 100113-35849-01.
Может быть, проблема в оборудовании? Помогло бы, если бы мы остановились и запустили инстанс? Или более вероятно, что это вызвано программным обеспечением, запущенным в системе?
[Обновление 10.01.2013]
Представитель Amazon предложил обновить драйверы RH до драйверов Citrix PV на нашем экземпляре:
Обновление фотоэлектрических драйверов
[Обновление 10.08.2013]
Мы выполнили обновление драйверов на клонированном экземпляре. Сразу после обновления в программе просмотра событий мы заметили следующие ошибки:
Xennet6 errors in Event Viewer (Event ID# 5001)
Покопавшись еще немного, я обнаружил этот статья с предложением установить последние версии драйверов Citrix. К сожалению, это нам совершенно не помогло, и наш клонированный экземпляр перестал отвечать.
[Обновление 10.08.2013 2]
Я воссоздал экземпляр и снова обновил драйверы PV. После поиска в Интернете я нашел этот статья, в которой представитель Amazon объясняет, что:
"Event ID 5001 from source Xennet6 cannot be found" message does not
indicate anything wrong, just that the PV driver is looking for a feature
that we have not implemented in our version of Xen.
Я оставлю свою тестовую систему работающей некоторое время, чтобы проверить, нет ли с ней проблем.
У меня такая же проблема.
Но AWS Supporter ответит мне, как показано ниже: они не уверены, что проблема с накопителями Citrix PV.
Currently, we are unable to root cause the issue.
In my personal opinion, this might be a one-time only occurrence,
but as you are running Citrix PV Drivers, I highly encourage you to upgrade.
As the Citrix drivers show up in the logs,
they might had been related to the issue.
Обновление драйверов, предложенное представителем Amazon, устранило проблему.
В связи с Event ID 5001...
Проблема ниже - это ответ, который я получил от Amazon:
Please ignore the Xennet 5001 error. This error occurs on every instance
that is launched with Citrix PV drivers and is due to the driver looking
for a feature that is not supported on EC2. It will have no other effect on the instance.