У нас ночью отказал кондиционер. Мы обнаружили, что температура в серверной достигла примерно 110–115 ° F (43–46 ° C). Мы отключили все, что еще не было, и установили кондиционер.
Теперь, когда это исправлено, меня беспокоит ущерб, нанесенный длительным воздействием высокой температуры. Я хотел бы провести серию тестов на всех наших машинах, чтобы убедиться, что машины не повреждены, прежде чем мы вернемся к тому, чтобы на них полагаться. Мой план таков:
smartctl -a
и badblocks
на всех дисках и проверьте вывод на наличие аномалийЭтот список кажется немного тонким, и я не уверен, что все они будут должным образом проверять оборудование, чтобы гарантировать, что мы не столкнемся с какими-либо проблемами, вызванными нагревом в будущем.
Достаточно ли этой батареи тестов? Есть ли другие, которые мне следует рассмотреть?
46,5 градусов Цельсия.
Начните не с чека, а с чтения документов для ваших основных серверов.
Вы обнаружите, что это вполне вероятно в пределах их рабочих температур. Не шутка. Оборудование предназначено для разных целей, и на земле есть ГОРЯЧИЕ места - вы действительно хотите сказать парню из Техаса в действительно жаркий день, что нет, ему НУЖЕН кондиционер?
Черт возьми, просто проверяю серверы, которые у меня есть:
https://supermicro.com/Aplus/system/1U/1123/AS-1123US-TR4.cfm
Температурный диапазон дан до 95 по Фаренгейту. И температура процессора ограничена - во всяком случае, они бы отключились.
Лучше проверить диски на целостность и убедиться, что резервные копии в порядке - ЦП не будет перегружен и поврежден так легко. Не прошло и 15 лет, с тех пор все используют схемы терморегулирования. У меня было несколько сбоев кулера процессора, и они привели к тому, что процессор отключил mobo FAST.