Назад | Перейти на главную страницу

Что-то горит в серверной; как я могу быстро определить, что это?

На днях мы замечаем ужасный запах гари, исходящий из серверной. Короче говоря, это оказался один из модулей батарей, который сгорел в ИБП, но потребовалось несколько часов, прежде чем мы смогли это выяснить. Основная причина, по которой мы смогли это выяснить, заключается в том, что дисплей ИБП наконец показал, что модуль необходимо заменить.

Проблема была в том, что вся комната была наполнена запахом. Провести нюхательный тест было очень сложно, потому что запах пропитал все (не говоря уже о том, что у нас кружилась голова). Мы почти по ошибке отключили наш производственный сервер базы данных, потому что именно там запах был наиболее сильным. Показатели Vitals были в порядке (температура процессора составляла 60 градусов Цельсия, а скорость вращения вентилятора нормальная), но мы не были уверены. Так получилось, что сгоревший аккумуляторный модуль был примерно такой же высоты, как и сервер на стойке, и всего в 3 футах от него. Если бы это была настоящая чрезвычайная ситуация, мы бы с треском провалились.

На самом деле вероятность того, что фактическое серверное оборудование сгорит, является довольно редким явлением, и большую часть времени мы будем смотреть на ИБП в качестве виновника. Но с несколькими стойками с несколькими предметами оборудования это может быстро превратиться в игру в угадайку. Как быстро и точно определить, какая часть оборудования действительно горит? Я понимаю, что этот вопрос сильно зависит от переменных среды, таких как размер комнаты, вентиляция, местоположение и т. Д., Но любой ввод будет оценен.

По общему мнению, ответ на ваш вопрос состоит из двух частей:

Как нам найти источник забавного запаха гари?

У вас довольно хорошо сказано «Как»:

  • "Нюхательный тест"
  • Ищите видимый дым / дымку
  • Пройдитесь по комнате с тепловизором, чтобы найти горячие точки.
  • Проверьте панели мониторинга и устройства на наличие предупреждений

Вы можете повысить свои шансы на быстрое обнаружение проблемы несколькими способами - улучшенный мониторинг часто оказывается самым простым. Некоторые вопросы, которые нужно задать:

  • Получаете ли вы от своего оборудования информацию о температуре и другие предупреждения о состоянии здоровья?
  • Сообщают ли ваши системы ИБП о неисправностях вашей системе мониторинга?
  • Получаете ли вы аварийные сигналы о потребляемом токе от вашего оборудования для распределения электроэнергии?
  • Сообщают ли датчики дыма в помещении систему мониторинга? (и они могут?)

Когда мы должны устранять неполадки, а не нажимать Большой красный переключатель?

Это более интересный вопрос.
Нажатие большого красного переключателя может стоить вашей компании огромных денег в спешке: выпуск чистых агентов может исчисляться десятками тысяч долларов, а затраты на отключение / восстановление после аварийного отключения питания (EPO, «выход из комнаты») ) может быть разрушительным.
Вы не должны бросать центр обработки данных, потому что конденсатор в блоке питания выскочил и вызвал запах в комнате.

И наоборот, пожар в серверной может стоить вашей компании данных / оборудования и, что более важно, жизни вашего персонала.
Устранение "того странного запаха гари" никогда не должно иметь приоритет над безопасностью., поэтому важно иметь некоторые четкие правила по устранению неполадок в «предпожарных» условиях.

Следующие ниже рекомендации: мои личные ограничения которые я применяю в отсутствие (или в дополнение к) любой другой четко определенной процедуры / правил - они сослужили мне хорошую службу и могут помочь вам, но они могут так же легко убить или уволить меня завтра, поэтому примените их в своем собственный риск.

  1. Если вы видите дым или огонь, бросьте комнату
    Это должно быть само собой разумеющимся, но давайте все равно скажем: если есть активный пожар (или дым, указывающий, что он скоро будет), вы эвакуируете комнату, отключаете электричество и разряжаете систему пожаротушения.
    Могут существовать исключения (проявите некоторый здравый смысл), но это почти всегда правильное действие.

  2. Если вы приступаете к устранению неполадок, всегда привлекайте как минимум еще одного человека.
    Это по двум причинам. Во-первых, вы не хотите бродить по центру обработки данных, и вдруг в ряду, по которому вы идете, поднимается стойка, и никто не знает, что вы там находитесь. Во-вторых, другой человек - это ваша проверка на вменяемость при устранении неполадок, а не о выходе из комнаты, и если вы сделаете вызов, чтобы нажать Большой красный переключатель, у вас есть преимущество, если второй человек согласится с решением (помогает избежать аспектов, ограничивающих карьеру такого решения, если позже кто-то его спросит).

  3. При устранении неисправностей соблюдайте разумные меры безопасности.
    Убедитесь, что у вас всегда есть путь выхода (открытый конец ряда и свободный путь к выходу).
    Оставьте кого-нибудь на месте у аварийного аварийного выхода / пожаротушения.
    Носите с собой огнетушитель (пожалуйста, галон или другое чистящее средство).
    Помните правило №1 выше.
    В случае сомнений, покинуть комнату. Позаботьтесь о своем дыхании: используйте респиратор или кислородную маску. Это может спасти ваше здоровье в случае химического возгорания.

  4. Установите предел и придерживайтесь его
    Точнее установить два пределы:

    • Состояние («Насколько я могу позволить этому стать хуже?») И
    • Время («Как долго я буду пытаться найти проблему, пока это не станет слишком рискованным?»).

    Установленные вами ограничения также можно использовать, чтобы позволить вашей команде начать упорядоченное отключение пораженной области, поэтому, когда вы ДЕЛАТЬ вы не повредите кучу активных машин, и ваше время восстановления будет намного короче, но помните, что если упорядоченное завершение работы занимает слишком много времени, вам, возможно, придется позволить нескольким системам выйти из строя во имя безопасности.

  5. Доверяйте своей интуиции
    Если вы в любой момент беспокоитесь о безопасности, отмените поиск неисправностей и освободите комнату.
    Вы можете или не можете покинуть комнату, основываясь на интуиции, но перегруппироваться вне комнаты в (относительной) безопасности разумно.

Если нет непосредственной опасности, вы можете вызвать местную пожарную службу, прежде чем предпринимать какие-либо радикальные действия, такие как выброс EPO или чистящего агента. (Они могут сказать вам сделать это в любом случае: их задача - защищать людей, а затем собственность, но они, очевидно, являются экспертами в борьбе с пожарами, поэтому вы должны делать то, что они говорят!)

Мы рассмотрели это в комментариях, но это также может быть обобщено в ответе - @DeerHunter, @Chris, @Sirex и многие другие внесли свой вклад в обсуждение

Тепловизионная камера может сделать эту работу и позволить вам определить, где находится перегрев. Такое устройство позволит вам также определить источник пожара или горения в задымленном помещении.

Вы не делаете ничего из этого что было сказано. Вы покидаете опасную среду, потому что все, что проходит через всю комнату, опасно для вашего здоровья и может действительно испортить ваши легкие. Если в комнате чувствуется резкий запах гари, которого вы не можете найти, позвоните (911 | 112 | 999 | любой номер службы экстренной помощи, соответствующий вашей юрисдикции) и позвольте пожарной (компания | отдел | бригада) разобраться с этим, пока они Находимся на воздухе в бутылках.

Компоненты компьютера содержат всевозможные интересные химические вещества, в том числе Меркурий, кадмий, вести, и много пластика в кожухах. Обратите внимание, что все ссылки, которые я сделал, объясняют, как воздействие низкого уровня может вызвать длительный ущерб или даже быструю смерть. Это среда, которая может быть сразу опасно для жизни и здоровья.

... так что на самом деле, если что-то горит, не тратьте часы на нюхание дыма. Если вы не можете идентифицировать его и немедленно действовать, чтобы сдержать его, уходите.

Если у вас был надлежащий мониторинг ИБП (обычно через SNMP), само устройство должно было вызвать сигнал в вашей системе мониторинга. Если этого не произошло, поговорите об этом со своим поставщиком. Он либо неисправен, либо ваша система мониторинга настроена неправильно.

Если что-то активное на самом деле горит, оно должно каким-то образом жаловаться на это или просто быть вне сети, что также должно вызывать тревогу.

Если это что-то вроде того, что настоящая шина электропитания прожигает изоляцию, и этого нет в умном блоке распределения питания, тогда мы возвращаемся к вашему первоначальному вопросу: «Как мне найти горящую вещь?» И я думаю, что правильный ответ - «Ударьте EPO и выясните это. Вероятно, ваши производственные серверы недостаточно важны, чтобы рисковать жизнями».

Это одна из тех ситуаций, когда

не применяется, вам следует вызвать специалиста

Все остальное просто глупо.

Как человек, чья предыдущая карьера была связана с электроникой, у меня есть опыт с «запахами гари», которые не были огнем. Это не редкость.

Я бы не стал закрывать дата-центр из-за запаха. Другое дело дым, что-то действительно горит (обычно, но танталовый конденсатор размером с горошину может наполнить дымом и комнату). Удивительно, как сильно пахнет жареный компонент в блоке питания.

Термометр TIC или IR (полезный инструмент и намного дешевле, чем TIC) не обязательно покажет это, поскольку компонент вообще не выделяет много тепла и находится внутри корпуса. Но проверьте, не работают ли устройства, используйте инструменты мониторинга. При таком запахе в 95% случаев это будет источник питания, влияющий на производительность всего устройства.

Мне нравятся ответы на ИК-изображения или термометры, но, возможно, также поможет настоящий «детектор запаха». В конце концов, вас насторожил запах. Дым, тепло, инфракрасное излучение и т. Д. - все это суррогаты.

Что-то вроде этого: . Я лично никогда не использовал их и даже не видел, чтобы они использовались в центре обработки данных. Но по крайней мере теоретически это должен быть изящный инструмент. Если у вас есть деньги, чтобы потратить на эту штуковину, то есть.

http://www.sca-shinyei.com/odormeter или http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

Это дает вам силу запаха, а также классификацию. Так что поиск запаха должен быть возможен. Дьявол, конечно, в деталях. Насколько он чувствителен, маскирует ложный фоновый запах и т. Д.

Одно из преимуществ перед измерениями, основанными исключительно на температуре, заключается в том, что запах часто возникает гораздо раньше. Или, если перегретый компонент скрыт телом / скрытой проводкой и т. Д., Легче обнаружить убегающие молекулы, чем горячую точку прямой видимости.

Другая ситуация - запах, не связанный с жарой. У нас и раньше были утечки из контура охлаждения, и запах охлаждающей жидкости тоже был своеобразным. Я даже не буду вдаваться в подробности теперь уже древнего случая с мертвым грызуном в каналах. :)

Я был удивлен, насколько чувствительны эти датчики. Очевидно, H2S / меркаптаны и т. Д. (Обычные виновники) обнаруживаются при уровнях ниже ppm.