Назад | Перейти на главную страницу

Лучший сисадмин WTF?

Вы наверняка были свидетелями этого (или собираетесь) рано или поздно: этот ужасный проект / система / ситуация, когда что-то ТАК облажался, вы просто не можете поверить, что все прошло так, как было.

Бесхозяйственность? Невыполнение бюджета? Непонимание? Просто глупое, простое незнание? Назовите свою причину, это точно произошло (и, к сожалению, часто происходит; см. Вот).

Опишите это здесь, для развлечения (хотя и несколько циничного) и обучения (надеюсь).

Некоторые правила:

Я скоро добавлю материал, не стесняйтесь добавлять свой собственный; и пожалуйста :-)

Мне позвонили из компании, о которой я никогда раньше не слышал, которой было поручено внедрить почтовый сервер Exchange 2003 для клиента, и она совершенно не понимала, как это сделать; ничего странного, правда? Я работаю внештатным консультантом, поэтому я прекрасно выполняю работу, которую вы не знаете, как делать для вас (и получаю за это деньги).

Итак, я пошел на сайт клиента и обнаружил кое-что довольно странное: каждый сервер в сети был контроллером домена; все 15 или около того из них.

Затем я обнаружил кое-что еще более странное: ни один из них не реплицировался должным образом с другими, общее поведение Active Directory можно было описать только как «неустойчивое», у пользователей возникали любые проблемы с сетью, которые вы можете себе представить, а Exchange просто отказывался устанавливать с неизвестным человечеству ошибки.

Итак, я взглянул на конфигурацию сети на сервере и увидел ... что он использовал общедоступные DNS-серверы провайдера. Затем я смотрю на другой сервер ... и он был таким же. Затем я смотрю на DC ... то же самое. Затем я спросил ... и это было официально подтверждено: каждый компьютер в сети (около 1500) использовал DNS провайдера вместо законного контроллера домена.

Я начал объяснять, что DNS вполне критически важен для правильной работы Active Directory, и смог восстановить предысторию:

  • Кто-то изначально правильно настроил домен AD, используя DC в качестве DNS-сервера для каждого компьютера.
  • Он / она / оно ничего не знал о серверах пересылки и / или конфигурации брандмауэра, поэтому компьютеры не могли разрешать общедоступные имена в Интернете.
  • Так появилась идея использовать DNS-серверы интернет-провайдера на компьютерах; они настроили это на все из них.
  • У них начали появляться ошибки «не могу найти контроллер домена» (кто бы мог подумать?).
  • Они подумали, что проблема вызвана нехваткой контроллеров домена, поэтому приступили к продвижению каждый сервер на эту роль.
  • Излишне говорить, что это только ухудшило ситуацию, поскольку эти новые контроллеры домена также использовали неправильные DNS, поэтому они также не могли реплицироваться.
  • Это продолжалось для месяцы, они просто «привыкли» к полной ненадежности сети.
  • Вдобавок к этому они пытаются запустить установку Exchange, которая с треском вылетает; только тогда они решили вызвать какого-то внешнего консультанта, и до тех пор, пока они не поняли, что что-то совершенно определенно не так в их сети.

Когда-то у меня был клиент, представлявший малый бизнес (10 человек) с электронной историей болезни. (Не врач). Однажды я заметил, что резервное копирование давало сбой. При тестировании ленточный накопитель вообще не работал. Я сказал об этом владельцу, и он сказал, что прекрасно знает, что привод плохой, но его слишком дорого заменить.

Конечно, это не очень-то WTF.

Черт возьми, он приказал своим сотрудникам ежедневно крутить ленту, брать ее в сейф, и все такое джаз для 6-9 месяцев с момента его смерти.

«Не говорите персоналу, это может их обеспокоить»

Я работал системным администратором в крупном правительственном агентстве (одном из основных органов правительства Италии) и несколько месяцев управлял их центром обработки данных. Однажды вечером у меня звонит телефон, и мой босс сообщает мне, что происходит очень плохое: полное отключение электроэнергии.

Хорошо, у нас есть ИБП, да?

Да, но долго они не протянут, так что лучше иди туда и выключи все, пока не вернется электричество.

Я иду туда, пробираюсь по темным коридорам, прихожу в серверную ... и меня встречает то, что можно описать только как чистый ад. Буквально. В комнате было так жарко, что в ней можно было печь пирожки. Питание от ИБП было в порядке, но половина серверов уже отключилась от перегрева, а остальные кричали от боли.

Причина?

Серверы были на ИБП ... кондиционера не было.

Ответ по электронной почте от инженера службы поддержки Microsoft на обнаруженную проблему:

"Что касается моего мнения о вашей проблеме, я есть одно слово: СТРАННО ".

Золото!

Отказ вентилятора HP ProLiant ML370 G3 ... Датчики вентилятора на материнской плате этой модели имеют тенденцию выходить из строя через 5 лет. Сервер не может загрузиться, если не обнаружена неправильная комбинация вентиляторов. Мне пришлось провести клиента через запуск машины с помощью пылесоса (чтобы вентиляторы вращались при загрузке), и именно так они поддерживали работу сервера до тех пор, пока я не смог приехать с новой системой.

Раньше я был консультантом по бухгалтерскому программному обеспечению для бухгалтерского учета Dac-Easy. Однажды меня вызвали в главный офис местного предприятия, и бухгалтер сказал мне, что если я не смогу понять, почему программа полна бухгалтерских ошибок каждые выходные, им придется искать другое приложение и консультанта. Просматривая файлы административного журнала, я обнаружил, что все записи обычно делались вечером в пятницу или субботу. Затем я узнал, что жена владельца входила в систему бухгалтерской системы из дома, используя PC Anywhere, и пыталась уравновесить счета со своей чековой книжкой после нескольких бокалов вина. Как только цифры будут выглядеть хорошо, она выйдет из системы.

Еще один покупатель, еще одна страшилка.

В основном посте я говорил об ошибочной перезаписи хорошей резервной копии поврежденной базой данных, которую она должна была заменить; такое случается :-(

Поэтому потребовалось восстановление из резервной копии. К счастью, на самом деле БЫЛ там резервное копирование: оно делалось ежедневно на центральном сервере резервного копирования с подключенной к нему Really Big ленточной библиотекой; этот сервер управлял резервным копированием для всей компании, это было действительно дорого, и на нем было установлено программное обеспечение Real Backup.

Все идет нормально. Мы просматриваем задание резервного копирования, загружаем нужную ленту, запускаем операцию восстановления, лента загружается, начинается восстановление ... и ничего не происходит.

Мы пробуем еще раз, кое-что.

Выгружаем, перезагружаем, перезагружаемся, пробуем восстановить предыдущие бэкапы ... ничего не меняется.

Мы предполагаем, что некоторые длинный операция шла, и оставлю на всю ночь ... на следующий день все равно ничего не меняется.

Хорошо, пора позвонить в службу поддержки поставщика Real Backup Software ... но это невозможно, мы в воскресенье. Мы пытаемся найти сайт поддержки поставщика, но требуется специальный код доступа, и он есть только у одного менеджера ... того же менеджера, который действительно расстроится, обнаружив, что система все еще не работает, в понедельник, когда он придет на работу.

Еще один день боли, и я обнаруживаю, что ошибка хорошо известна, и она была исправлена ​​патчем поставщика, который (очевидно) никто не удосужился применить. Итак, я иду применить его ... но это невозможно: руководство не хочет рисковать чем-либо, если производитель не подтвердит, что исправление можно безопасно применить; дело в том, что сервер резервного копирования ничего не смог восстановить очевидно, не выглядел им достаточно "сломленным".

Только через четыре дня, различные звонки в службу поддержки и отправку поставщика на место инженера службы поддержки, мы наконец смогли применить исправление и восстановить резервную копию; на резервном сервере не было КОГДА-ЛИБО удалось восстановить, но никто никогда не проверял, поэтому никто не заметил.

Я поднял компьютер, который получил в офисе нашей материнской компании, когда услышал внутри что-то грохочущее. Когда я открыл чемодан, я обнаружил, что он наполовину заполнен матовыми мини-пшеничками. Я полагаю, что в нем жила мышь или использовала тайник с едой. Вероятной точкой входа стал зазор между корпусом и разъемом для клавиатуры DIN.

Не совсем то, что вы просили, но определенно WTF.

Сеть с ~ 60 (ШЕСТЬДЕСЯТ) ПК.

Босс-фанатик безопасности.

Некоторые новые коммутаторы с возможностями VLAN.

«План реорганизации сети» с участием ~ 20 (20) VLAN.

Благодаря какой-то неизвестной высшей власти я ушел прежде, чем все это могло начаться ...

Я знал человека, который решил реорганизовать файлы на своем компьютере, поместив все .exe в одну папку.

Эмуляция терминала для развлечения и получения прибыли

Я работаю со старой системой - по сути, с набором текстовых терминалов, которые подключаются к блоку Unix, с несколькими компьютерами с Windows, добавленными просто для усложнения.

Несколько важных исходных фактов

  • Основное программное приложение использует собственный расширенный файл termcap. Общесистемные termcap и terminfo игнорируются.
  • Основное программное приложение позволяет выбирать различные раскладки клавиатуры в соответствии с переменными среды.
  • Все текстовые терминалы имеют программируемые клавиатуры.
  • ПК с Windows подключаются с использованием проприетарного клиентского программного обеспечения без встроенной поддержки со стороны основного программного обеспечения.
  • Проприетарное клиентское программное обеспечение позволяет выбирать различные раскладки клавиатуры при загрузке.
  • Только половина сотрудников использует стандартную раскладку QWERTY.
  • По крайней мере, один, а может и больше, из системных администраторов, которые работали с этой системой, не имели надлежащего понимания эмуляции терминала.

Думаю, вы понимаете, к чему я клоню.

Были вялые попытки добавить надлежащую поддержку терминала в файлы terminfo и termcap, но они работают лишь частично. Проприетарный файл termcap, используемый основным системным приложением, работает, но в основном это не имеет значения, поскольку $ TERM все равно никогда не устанавливается должным образом.

При входе в систему каждый пользователь должен в основном выбрать, откуда он входит и какую раскладку клавиатуры он хочет использовать - автоопределение не требуется. Это установит $ TERM в ANSI, несмотря на какой терминал используется на стороне клиента, и переменная среды, заданная таким образом, чтобы основное программное приложение соответствующим образом переназначало некоторые ключи.

В случае людей, использующих встроенную раскладку клавиатуры на текстовых терминалах, затем запускается сценарий для перепрограммирования. некоторые клавиш встроенной раскладки (как физически напечатано на самой клавиатуре), но не всех. На ПК с Windows загружается клиентская раскладка клавиатуры для переназначения большинства функциональных клавиш на ANSI. Невозможно переназначить их все, иначе некоторые другие клавиши перестанут работать.

Вход во что-либо еще с любого из терминалов - это упражнение при сбое, и его можно разумно выполнить только непосредственно на самом сервере. Поскольку все работает, сложно оправдать затраты времени и усилий на его устранение. Но добавление чего-либо новее, чем текстовые терминалы 20-летней давности, с которыми мы сейчас застряли, по существу потребовало бы переписывания всей системы.

Я немного плачу внутри каждый раз, когда вижу это.

О, это легкий ...

У меня была установка Linux для компании, расположенной на складе в сельской местности Кентукки. Эта система является приложением бухгалтерского учета / инвентаризации для организации. Я заменял сервер SCO эпохи 1998 года новым сервером CentOS 4. В результате я ожидал худшего, когда дело касалось подключения и клиентов. Знаете, старые ПК, плохая разводка кабелей и т. Д. Я отправил на место новые коммутаторы, кабели, тонкие клиенты и т. Д. ...

Однако я НЕ ожидал, что монтажный «шкаф» будет в ВАННАЯ КОМНАТА! Фактически, кабельная разводка находилась в пространстве над подвесным потолком прямо над туалетом в ванной складского помещения. Сюда входит модем DSL, 10 мегабит HUB и 66-блок для телефонов ...

Клиент позвонил мне, чтобы помочь с некоторыми сборками сервера. Во время сборки мне сообщили, что это были серверы для замены двух нижних из стойки. Мне показалось странным, что положение стойки имеет значение, и я спросил, почему. Оказывается, серверная комната затоплена после того, как водопроводная труба, проходящая через ее середину, лопнула.

Вы спросите, что делает водопровод в центре серверной? Что ж, женская ванная находится по соседству, а серверная находится вне поля зрения. Какое место лучше поставить в ванную комнату?

Массимоответ напомнил мне о другом WTF ...

В небольшом офисе есть сервер Windows 2003 с Exchange, Symantec AV и т. Д. Компания обычно использует нас для выполнения всей своей ИТ-работы ... но этот новый «горячо» находится в офисе и купил новый ПК. У нас они были на единой платформе Dell Optiplex, этот парень решил заменить 3 из них на «отличные машины», которые продавались в Best Buy.

Тем не менее - им как-то удается присоединить его к домену.

Первый звонок:

Мы не можем найти перспективу. Машина шла с Word (Microsoft Works), так что где все остальное.

Второй звонок:

Как использовать сетевой антивирус?

Это WTF. Я пошел на сайт, и 7 из их машин были настроены как Symantec Antivirus. СЕРВЕРЫвместо установки клиента. Судя по всему, господину не понравилось, что мы заблокировали настройки клиента, и он решил «переустановить» клиент, чтобы он мог изменить его при сканировании. Очевидно, первый компакт-диск с Symantec AV, который мы не учли, каким-то образом убедил его установить «сервер», а не клиента.

Мы дали одному из наших администраторов Unix окно Windows. Это произошло вскоре после того, как мы передали администраторам Windows Linux-администраторы в попытке познакомиться с различными операционными системами. Я, как администратор Windows, пытаясь не испортить свою Linux-систему, я задал кучу вопросов команде Unix. Полагаю, это было целью упражнения. После строгой лекции о том, чтобы убедиться, что я правильно подобрал размеры всех своих томов и не помещаю все на один том или на один раздел, я пошел дальше и построил совершенно адекватную коробку, которая все еще работает в производстве два года спустя.

Когда парень из Unix, который читал мне лекцию о разных томах, а не о том, чтобы создавать вещи так, чтобы полный диск мог вывести из строя ОС, построил свой Windows-бокс, он поместил все на C :. Когда я сказал: «Я не могу подкрепить это какой-либо политикой, которая у нас есть, и когда эти журналы заполнятся, ваш ящик выйдет из строя». Он сказал «Я подумал, что это Windows, все на C: имеет смысл». Другого раздела он вообще не делал. Я серьезно не понимал этого. Абсолютно WTF ты что-то думал. По-видимому, ему не приходило в голову, что некоторые передовые практики одинаковы независимо от ОС.

Мой лучший WTF зародился у моего нынешнего работодателя, когда я только начал здесь.

Практически первые пару месяцев работы были связаны с постоянным состоянием паники и откровенного ужаса, когда я узнал о состоянии серверов. При моем нынешнем уровне опыта я мог бы просто порекомендовать поджечь это место и получить страховку. Но самой лучшей частью была политика одной компании:

Учет по коммутируемым клиентам не велся. У провайдера, который получал половину своего дохода от клиентов по коммутируемому соединению. На самом деле это была политика, которая действовала около 6 лет к тому времени, когда я начал, и я просто не мог подумать, что ничего было сделано с этим. Стандартная линия гласила: «Мы просто доверяем нашим клиентам не использовать слишком много». Тот факт, что у заведения был скудный бюджет и все это время не было настоящего администратора на коммутаторе, не помогал, я не думаю.

Конечным результатом этой политики, конечно же, было то, что спамеры по существу захватили пул коммутируемого доступа. Почти каждую ночь они использовали одну учетную запись для подключения к нескольким модемам, пока весь пул не был заполнен, а затем рассылали спам так быстро, как только могли. Версия AAA RADIUS не помогла, потому что не было быстрого переключения «разрешать только одному пользователю за раз». Я кое-что вместе взломал на Perl, чтобы отключить любого, у кого есть два входа в систему, до тех пор, пока сервер RADIUS не сможет быть заменен, и это устранило эту проблему где-то в течение первых недель или двух. Частично другая проблема заключалась в том, что у меня не было достаточно времени, чтобы что-то исправить (см. Ограниченный бюджет), поскольку я одновременно занимался технической поддержкой. Но отчасти я все еще здесь, потому что у меня была свобода управления всем этим. Не думаю, что мне когда-либо говорили, чтобы я не реализовывал какую-нибудь здравую идею. Единственное ограничение, которое у меня было, - это деньги.

Работал программистом на полную ставку и администратором на полставки в небольшой компании, занимавшейся разработкой программного обеспечения для бухгалтерского учета (читайте: выставление счетов клиентам и страховые выплаты). Получил звонок от крупного клиента, что его сервер не работает; это был новый продукт под управлением Altos Unix SysV / 386. Поскольку я был всем, что у них было, они прислали меня и новую девушку.

Попали туда, и там была комната, полная операторов ввода данных, которые печатали документы WordPerfect так быстро, как только могли. Была линия дальней связи, выходящая из штата, где то же самое делала другая группа операторов.

В каталоге документов было около 10 000 безупречных документов, все они были в одном формате. ВСЕ В ОДНОМ КАТАЛОГЕ. Такой-то был ранен и страдает от такого-то. Похоже, этот доктор был помощником юристов, подавших иски о травмах.

Я попытался загрузиться с дискеты и получил только много шумов поиска. Я вытащил дискету, и она была полностью покрыта паутиной, я говорю здесь о нескольких. Это был кабинет врача, поэтому я потребовал тампоны и спирт (это был единственный загрузочный диск Unix, который у нас был, и единственный шанс исправить что-то в том сервисном вызове) и начал чистить дискету, привод и сервер.

Было две проблемы: одна заключалась в том, что сервер был заполнен грязью из-за коврового покрытия офиса и его расположения в углу комнаты (на толстом плюшевом ковре) и перегревался в офисе до 80 градусов. Файловая система нуждалась в серьезном FSCK, и я разделил файлы размером 10 КБ на новый набор подкаталогов в алфавитном порядке и предложил им разбить его дальше.

Доктор был идеальной дырочкой, которая порвала нам новую, когда мы вошли в дверь. Уходя, мы объяснили, что покупка у нас опции WordPerfect для UNIX не означает, что мы выбрали сервер для создания внутриконтинентальных документов; Кроме того, ему требовались кондиционер, сервер без ковров, ИБП, внешний массив RAID и лучший протокол хранения каталогов. Внезапно он все услышал, потому что именно так он заработал все свои деньги. Я предоставил всю информацию отделу продаж, но вскоре покинул эту работу по другим причинам.

Тот же клиент, который участвует в DNS From Hell.

Их сервер Exchange продолжал работать в течение многих лет и даже выдержал некоторые отказы дисков (спасибо, RAID, и еще раз спасибо, резервное копирование). Однажды меня снова вызвали по несвязанной проблеме, и они сказали мне мимоходом что-то их беспокоило: несколько раз раньше они обнаруживали, что каждый может открыть почтовый ящик другого человека; они думали, что это странно, но ничего не сделали, потому что не знают, как это исправить, и в любом случае электронная почта работала, и (почти) никто не обнаружил этого.

я был вполне в шоке: каждый мог открыть чужой почтовый ящик, и они думали, что это ТОЛЬКО НЕБОЛЬШОЕ УПРАВЛЕНИЕ и не стал ничего делать для ТРИ МЕСЯЦА. Любые обычные люди сразу же выдернули бы сетевой шнур из сервера, но не они.

Источник проблемы был ... странным: кто-то установил «Все / Полный доступ» на уровне организации Exchange в Active Directory, поэтому каждый сразу стал полноправным администратором Exchange; их единственной удачей было то, что это мало кто заметил.

На сегодняшний день никто не знает, кто это сделал на самом деле.

Не так давно был в туалете Демарка и нашел на сайте эту милую установку:

Установка элитного оптоволоконного кабеля = TWIST TIE

альтернативный текст http://locobox.googlepages.com/Fiber.jpgальтернативный текст http://locobox.googlepages.com/Fiber2.jpg

Десять лет назад я брал интервью у компании, в которой кабели в основной серверной комнате были похожи на суп из спагетти. Сетевое оборудование было размещено на 3 стойках в углу комнаты размером 20 футов на 60 футов. По стойкам катился каскад сетевых кабелей разного цвета, заканчивался пучком запутанных кабелей шириной около 7 футов и выходил примерно на 5 футов от стоек. Никакой документации не было, и никто не знал, что куда делось.

Компания занимала 95% рынка в области безопасности жизни и имущества. Все, что я могу сказать, это то, что это может дать настоящую паузу.

Кстати, компания все еще работает и, по-видимому, с тех пор многое исправила.

Несколько лет назад компания, в которой я работал, приобрела одного из наших конкурентов, и мне пришлось провести аудит их машин (Centos), чтобы убедиться, что они соответствуют нашим стандартам с точки зрения конфигурации (их системный администратор отказался от возможности присоединиться к нашей компании в за создание собственной компании, которая разрабатывала решения под ключ).

В /etc/rc.local (доме всех замечательных WTF) я нашел:

swapon /dev/sda3

и

route add -net 10.0.0.0 netmask 255.255.0.0 eth1

Примечание: eth1 был настроен в ifcfg-eth1 с сетевой маской 255.255.255.0

Очевидно, настоящие системные администраторы не используют эти штампованные файлы конфигурации, такие как / etc / fstab и / etc / sysconfig / network-scripts / *

В начале этого года мы наняли новую девушку. Меня попросили убедиться, что на ее компьютере установлены все шрифты компании. Я знал, что это так, но решил выбрать свои битвы и просто установить их снова. Через 5 минут мне позвонила девушка, и она попросила меня прийти и показать ей, как использовать новое «программное обеспечение», которое я установил. Я подошел, открыл Word и объяснил ей, как менять шрифты ... что я и установил.

У этой девушки была докторская степень !! Она здесь больше не работает, но не потому, что не умела пользоваться шрифтами.