Назад | Перейти на главную страницу

BSOD 0x09c на 50 машинах SuperMicro

Для проекта у нас есть 50 серверов, оснащенных (как правило) одним и тем же оборудованием. Проблема здесь очень серьезная и встречается на всех машинах. Несмотря на большие усилия и контакты с производителями и разработчиками программного обеспечения, все указывают друг на друга и даже отказываются дать мне понять, что происходит.

Сначала позвольте мне описать установку. Это «серверное» оборудование. Для моего первого опыта servergrade - самое большое разочарование в моей жизни.

Работает в системе - Windows Server 2012 R2 Enterprise - VMWare Workstation 12 - ВМ запускает задачи с интенсивным использованием графического процессора - Эта система стандартная, разгона / разгона нет вообще

Симптомы - Случайный BSOD 0x09c (также известный как Machine_Check_Exception): иногда система работает без проблем в течение недели, иногда дает сбой всего через 10 минут, но в большинстве случаев она работает в течение нескольких часов.

Уже пробовал / проверял:

Также информативно:

Мы в отчаянии. К счастью, приложение, которое мы запускаем, в некотором роде избыточно. Если сервер и его виртуальная машина упадут, это не такая уж проблема, другие серверы возьмут на себя нагрузку в течение 5 минут, но в этом случае я должен быть в сети весь день, чтобы перезапустить серверы.

У меня есть обширные знания об оборудовании, но это проходит мимо, я искал это целый день больше месяца, пробуя всевозможные разные вещи. Тот факт, что эти материнские платы широко используются хостинг-провайдерами, заставляет меня подозревать, что сама плата в порядке. Это определенно не специфическая проблема оборудования для RMA, поскольку все 50 плат имеют одинаковые симптомы. Единственное, что у нас отличается, - это графический процессор. Это в сочетании с экспериментом Linux заставляет меня подозревать, что это определенно что-то на линии PCIe. Сам графический процессор стабилен на настольных мобильных устройствах. Несмотря на большой объем памяти, это небольшой графический процессор, который не потребляет много энергии. Я бы заподозрил китайские переходные платы, но опять же, мы также используем переходники, сертифицированные SuperMicro, и они не показывают никаких улучшений.

Я очень отчаянно пытаюсь найти здесь решение. Это начнется с определения точной причины. Мы готовы заплатить хорошую награду эксперту, который может проанализировать некоторые дампы и предоставить нам более подробную информацию (или, что еще лучше, решение).

С уважением,

Саймон

Ну это супер поздно, я полагаю, проблема решена к этому моменту? В любом случае 0x9C обычно означает аппаратный сбой MCE. Наши системы с графическим процессором запускали linux в качестве ОС, которая сообщает об этих ошибках немного более подробно, чем Windows.

В любом случае, они случайным образом появлялись у нас на аналогичном оборудовании, сделанном HP некоторое время назад, в конечном итоге это приводило к недостаточной подаче энергии на графический процессор. В частности, 75 Вт, которые должны поставляться через порт PCIe.

Мы подтвердили это с помощью мультиметра на плате расширения PCIe. Напряжение упало, когда одновременно сильно пострадали и GPU, и сетевые карты 10Gbe. В то время как материнская плата была способна выдавать 75 Вт на слот x16, секция подачи питания немного боролась, когда все остальные карты потребляли энергию.

Здесь можно заподозрить стояк и падение напряжения на сильноточных нагрузках.

Спасибо за ваш ответ. Сейчас 3 года спустя. Supermicro отказалась нам всячески помогать. Мы отправили несколько машин (точно таких, как построили мы). По их словам, они испытывали их в течение нескольких недель и ни разу не разбились.

Что касается райзера, то такая же ошибка возникает с GPU прямо в слоте.

Supermicro продолжает винить VMWare, чему я был склонен верить, пока не получил в свои руки новую версию той же самой платы. Без каких-либо комментариев от Supermicro плата с Xeon D-1540 была обновлена ​​с помощью Xeon D-1541 всего через несколько месяцев. Новая плата в основном такая же, как и новый процессор (также такая же, только немного более высокая тактовая частота). Обновленная плата также имеет дополнительный разъем для вентилятора.

Эти платы больше не ломаются. При точно такой же нагрузке они без проблем проработают месяцами. Я даже клонировал сюда машины, они работают точно так же, как и оборудование и программное обеспечение сбойных.

Это вроде подтверждает мои подозрения. Supermicro знает, что с платами есть проблема, но не хочет объяснять мне, почему, потому что в итоге почти 100 из этих плат оказались бесполезными из-за сбоев. Их никогда не было и RMA или исправление, даже не обновление BIOS для него, так что это должно быть что-то на плате.

Излишне говорить, что это был мой первый и последний раз с Supermicro. Это могло случиться с любым брендом, конечно, но поддержка была ниже нуля.