Обращаюсь к любым другим идеям после того, как в течение недели бился головой об этой проблеме.
У нас есть примерно 100 идентичных систем, использующих материнскую плату AAEON PICO-ITX BT01 с процессором J1900 Celeron.
Каждая система работает на Debian Jessie с ядром 3.16.0-0-686. Каждая система создается с использованием одного и того же образа clonezilla одинаковым образом.
Мы испытываем периодический режим сбоя, который проявляется одним из трех способов (хотя я считаю, что все 3 являются одной и той же основной причиной)
1) В самом конце заставки BIOS зависает и не восстанавливается. Хотя он показывает код ошибки 99, этот код всегда отображается в момент перед загрузкой ядра, поэтому я чувствую, что этот код BIOS не является диагностическим (это просто последнее, что отображается на экране). Отключение заставки BIOS не показывает ничего полезного, только версию BIOS и код ошибки.
2) На самых начальных этапах загрузки ядра сообщает, что ядра ЦП не могут быть разбужены. Затем система зависает и не восстанавливается.
3) Сразу после заставки BIOS прекращается вывод экрана и система зависает и не восстанавливается.
Это НЕ происходит с каждой платой, хотя все они из одного производственного цикла и используют одно и то же оборудование (при этом мы поменяли местами твердотельные накопители и обнаружили ту же проблему, поэтому я не верю, что это модуль SSD).
Увидев это в полевых условиях, я ввел процедуру тестирования, при которой система будет отображать образ, а затем настроить crontask на перезагрузку через 60 секунд после загрузки. Мы сжигали системы таким образом, и, поскольку они не восстанавливались после сбоя, через 24 часа мы увидим, какие системы все еще перезагружаются, а какие не прошли проверку.
Я прошу здесь посмотреть, есть ли у кого-нибудь, по сути, другие идеи. Я был в постоянном контакте с производителем платы, и у них есть две затронутые системы, которые они тестируют, но пока никаких результатов. Я могу провести любой необходимый тест на имеющихся у меня системах, как на прошедших, так и на отказавших платах.
Есть еще один важный момент. Жесткая перезагрузка (отключение питания) ВСЕГДА позволяет системе загрузиться. Система, идентифицированная как неисправная, не сможет загрузиться в БОЛЬШИНСТВЕ СЛУЧАЕВ во время первой мягкой перезагрузки после повторного включения питания на материнскую плату. Я когда-либо видел этот режим отказа только во время мягкой перезагрузки.
Это было большой загадкой, и помимо этого я люблю оборудование и хотел бы продолжать его покупать.
Спасибо, ребята и девушки.
Причина неисправности была выяснена при сотрудничестве с производителем, это оказалась неисправная ревизия BIOS. Мы оба протестировали откат BIOS, и проблема исчезла.
Это должно было быть ранней диагностикой, но живите и учитесь!