Я здесь в затруднительном положении, надеюсь, кто-нибудь может помочь.
Вот что у меня есть: Dell R710 с одним процессором Xeon 2,7 ГГц, 18 ГБ оперативной памяти, Server 2008 x64 SP2. Я использую HyperV с примерно 5 серверами.
Начиная с января у меня были проблемы со сбоями.
Впервые это была одна из виртуальных машин (SBS Server 2003). Произошел сбой, без записей об ошибках в журнале событий и без аварийного дампа. Сервер вернулся сам по себе.
Затем дважды на прошлой неделе произошел сбой хост-сервера (сервер 2008 года), а затем сегодня, примерно через неделю. Опять же, ни записей в журнале событий, ни аварийного дампа, он снова возник сам по себе.
Я внес изменения в сервер в начале января. Я обновил сетевые драйверы (Broadcom), добавил программное обеспечение Teaming и объединил два интерфейса. Я также обновил Symantec Endpoint Protection на всех серверах до последней версии 12. Я также заменил переключатель, но не считая это частью проблемы.
Я думал, что это проблема с памятью, потому что одна из виртуальных машин вышла из строя, а также хост. Но это также может быть Symantec.
У меня нет всех аварийных DUMPS, потому что идиот, который настроил сервер, не оставил достаточно места на системном диске для копирования файлов DMP
Вот один из файлов DMP:
Microsoft (R) Windows Debugger Version 6.12.0002.633 AMD64
Copyright (c) Microsoft Corporation. All rights reserved.
Loading Dump File [C:\Windows\Minidump\Mini012412-01.dmp]
Mini Kernel Dump File: Only registers and stack trace are available
Symbol search path is: SRV*e:\symbols*http://msdl.microsoft.com/download/symbols
Executable search path is:
Windows Server 2008/Windows Vista Kernel Version 6002 (Service Pack 2) MP (8 procs) Free x64
Product: Server, suite: TerminalServer SingleUserTS
Built by: 6002.18484.amd64fre.vistasp2_gdr.110617-0336
Machine Name:
Kernel base = 0xfffff800`01c1d000 PsLoadedModuleList = 0xfffff800`01de1dd0
Debug session time: Tue Jan 24 18:58:02.334 2012 (UTC - 5:00)
System Uptime: 9 days 13:32:35.727
Loading Kernel Symbols
...............................................................
................................................................
.............................
Loading User Symbols
Loading unloaded module list
..................................................
*******************************************************************************
* *
* Bugcheck Analysis *
* *
*******************************************************************************
Use !analyze -v to get detailed debugging information.
BugCheck 7F, {8, 80050033, 6f8, fffff80001c70da4}
Probably caused by : NETIO.SYS ( NETIO!MatchValues+14e )
Followup: MachineOwner
---------
С тех пор я отключил объединение
Вот еще один:
Windows Server 2008/Windows Vista Kernel Version 6002 (Service Pack 2) MP (8 procs) Free x64
Product: Server, suite: TerminalServer SingleUserTS
Built by: 6002.18484.amd64fre.vistasp2_gdr.110617-0336
Machine Name:
Kernel base = 0xfffff800`01c4b000 PsLoadedModuleList = 0xfffff800`01e0fdd0
Debug session time: Sat Jan 28 07:42:48.945 2012 (UTC - 5:00)
System Uptime: 0 days 21:36:52.143
Loading Kernel Symbols
...............................................................
................................................................
.............................
Loading User Symbols
Loading unloaded module list
...........
*******************************************************************************
* *
* Bugcheck Analysis *
* *
*******************************************************************************
Use !analyze -v to get detailed debugging information.
BugCheck 7F, {8, 80050033, 6f8, fffff80001ceeaa2}
Probably caused by : ntkrnlmp.exe ( nt!KiDoubleFaultAbort+b8 )
Followup: MachineOwner
---------
3: kd> !analyze -v
*******************************************************************************
* *
* Bugcheck Analysis *
* *
*******************************************************************************
UNEXPECTED_KERNEL_MODE_TRAP (7f)
This means a trap occurred in kernel mode, and it's a trap of a kind
that the kernel isn't allowed to have/catch (bound trap) or that
is always instant death (double fault). The first number in the
bugcheck params is the number of the trap (8 = double fault, etc)
Consult an Intel x86 family manual to learn more about what these
traps are. Here is a *portion* of those codes:
If kv shows a taskGate
use .tss on the part before the colon, then kv.
Else if kv shows a trapframe
use .trap on that value
Else
.trap on the appropriate frame will show where the trap was taken
(on x86, this will be the ebp that goes with the procedure KiTrap)
Endif
kb will then show the corrected stack.
Arguments:
Arg1: 0000000000000008, EXCEPTION_DOUBLE_FAULT
Arg2: 0000000080050033
Arg3: 00000000000006f8
Arg4: fffff80001ceeaa2
Debugging Details:
------------------
USER_LCID_STR: ENU
OS_SKU: 7
BUGCHECK_STR: 0x7f_8
CUSTOMER_CRASH_COUNT: 1
DEFAULT_BUCKET_ID: DRIVER_FAULT_SERVER_MINIDUMP
PROCESS_NAME: System
CURRENT_IRQL: d
LAST_CONTROL_TRANSFER: from fffff80001ca522e to fffff80001ca5490
STACK_TEXT:
fffffa60`019e9a68 fffff800`01ca522e : 00000000`0000007f 00000000`00000008 00000000`80050033 00000000`000006f8 : nt!KeBugCheckEx
fffffa60`019e9a70 fffff800`01ca3a78 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiBugCheckDispatch+0x6e
fffffa60`019e9bb0 fffff800`01ceeaa2 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiDoubleFaultAbort+0xb8
fffffa60`005a8000 00000000`00000000 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!HvlEndSystemInterrupt+0x2
STACK_COMMAND: kb
FOLLOWUP_IP:
nt!KiDoubleFaultAbort+b8
fffff800`01ca3a78 90 nop
SYMBOL_STACK_INDEX: 2
SYMBOL_NAME: nt!KiDoubleFaultAbort+b8
FOLLOWUP_NAME: MachineOwner
MODULE_NAME: nt
IMAGE_NAME: ntkrnlmp.exe
DEBUG_FLR_IMAGE_TIMESTAMP: 4dfb5a33
FAILURE_BUCKET_ID: X64_0x7f_8_nt!KiDoubleFaultAbort+b8
BUCKET_ID: X64_0x7f_8_nt!KiDoubleFaultAbort+b8
Followup: MachineOwner
---------
Надеюсь, я смогу получить здесь столь необходимое руководство.
Спасибо
Когда дело доходит до BSOD, 99% это проблема с драйверами.
Вы можете изменить конфигурацию, чтобы хранить только дамп ядра, а не полный дамп памяти, так что вы можете сохранить больше.
Что бы я сделал:
Вы пробовали следующее исправление? У нас было это с нашим набором R710, но мы не были уверены, что он уже был включен в обновление к настоящему времени.
Microsoft предлагает не объединять NICS вместе при использовании Hyper-V. Я рада, что ты его выключил. Я подумал, что это могло быть проблемой. Если вы чувствуете, что это проблема с памятью, попробуйте вынуть два неудобных модуля ОЗУ. 18GB кажется выключенным. У вас должно быть не менее 16 ГБ. Я бы, наверное, начал с этого.