У меня есть рабочий стол, работающий как сервер ubuntu в другом офисе. В последнее время он время от времени отключается, и я немного не уверен, как это диагностировать. Системный журнал выглядит так:
May 20 15:42:35 hostname sensord: Chip: coretemp-isa-0000
May 20 15:42:35 hostname sensord: Adapter: ISA adapter
May 20 15:42:35 hostname sensord: Core 0: 67.0 C
May 20 15:42:35 hostname sensord: Core 1: 66.0 C
May 20 15:42:35 hostname sensord: Core 2: 61.0 C
May 20 15:42:35 hostname sensord: Core 3: 58.0 C
May 20 16:04:16 hostname kernel: [ 5243.049529] CPU0: Core temperature above threshold, cpu clock throttled (total events = 1)
May 20 16:04:16 hostname kernel: [ 5243.050011] CPU0: Core temperature/speed normal
May 20 16:05:48 hostname kernel: [ 5335.083540] CPU2: Core temperature above threshold, cpu clock throttled (total events = 1)
May 20 16:05:48 hostname kernel: [ 5335.084028] CPU2: Core temperature/speed normal
May 21 16:06:52 hostname kernel: [ 5399.816039] mce: [Hardware Error]: Machine check events logged
Сначала я заподозрил, что вентилятор сломан или что-то перегрето, и активировал сенсор. Но со временем температура кажется стабильной.
Изменить: я установил mcelog, и демон запущен. Очень жду, когда это повторится снова, чтобы увидеть, имеет ли смысл mcelog.
Обновить
Mcelog указывает, что это проблема с температурой, у меня есть журналы, подобные приведенному ниже, которые соответствуют времени выполнения задания cron резервного копирования сервера Gitlab.
MCE 0
CPU 0 THERMAL EVENT TSC 16ec0aadec3a0
TIME 1401260314 Wed May 28 08:58:34 2014
Processor 0 heated above trip temperature. Throttling enabled.
Please check your system cooling. Performance will be impacted
STATUS 88020003 MCGSTATUS 0
MCGCAP 806 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 15
Hardware event. This is not a software error.
Я также провел сегодня небольшое тестирование на нагрузку на систему с помощью stress -c 4 -i 1 -m 1 -t 120
и я очень быстро достигаю 100 C на температуре процессора.
coretemp-isa-0000
Adapter: ISA adapter
Core 0: +100.0°C (high = +84.0°C, crit = +100.0°C)
Core 1: +96.0°C (high = +84.0°C, crit = +100.0°C)
Core 2: +85.0°C (high = +84.0°C, crit = +100.0°C)
Core 3: +79.0°C (high = +84.0°C, crit = +100.0°C)
Я подозреваю, что радиатор установлен неправильно, и я проверю это, когда найду время.
Решение
Я проверю тепловую пасту и сток процессора, как быстрое исправление.
У меня есть подержанный Dell PowerEdge R200 для замены этого сервера, и я постараюсь установить его на следующей неделе. Большое спасибо за совет.
Система сообщает вам, что регистрирует аппаратные ошибки, вы их просматривали?
21 мая 16:06:52 имя хоста ядро: [5399.816039] mce: [Ошибка оборудования]: регистрируются события проверки компьютера
Вы, вероятно, можете диагностировать это ... Журналы указывают на тепловую проблему. Паста процессора, радиатор, охлаждение и т. Д.
Но вот Pro ответ:
Какова стоимость замены? Достаточно ли влияние неожиданного простоя для конечных пользователей / бизнес-пользователей, чтобы просто заменить установку заведомо исправным оборудованием серверного класса?
Будет ли время простоя, необходимое для правильной диагностики оборудования, отрицательно сказаться на пользователях?
Если да, замените его ...
Если нет, устраните неполадки ... Попробуйте проверить оперативную память, как упоминалось ранее. Также посмотрите, можете ли вы вызвать плохое поведение с помощью полезность стресса или с диагностический Live CD.