Вы начинаете работу или работаете консультантом в компании и «наследуете» плохо настроенные серверы. Какая самая большая ошибка конфигурации, свидетелем которой вы когда-либо были?
За 15 лет работы в отрасли я еще не приступаю к новой должности консультанта в компании, чтобы обнаружить, что у них «хорошая» инфраструктура. Обычно это причина, по которой меня вызывают, чтобы исправить их.
Обычно причиной этого беспорядка являются лица, принимающие решения нетехнического характера.
Несколько лет назад я выполнял «оценку» сетевой инфраструктуры небольшой производственной компании. Во время этой работы я обнаружил, что в их системе ERP никогда не выполнялось резервное копирование. Без их ведома их бывший ИТ-подрядчик настроил Backup Exec на ежедневное полное резервное копирование, но никогда не создавал никаких сценариев для «дампа» или остановки / запуска сервера базы данных, используемого их системой ERP, поэтому файлы базы данных всегда использовались и пропускались резервное копирование. Таким образом, более 3 лет они выполняли ежедневное резервное копирование на магнитную ленту, на которой не было данных из их системы ERP. Они послушно заменили ленту, как и сказал им подрядчик, но, очевидно, никто (включая подрядчика) никогда не удосужился проверить, что на самом деле было на пленках.
Однажды в старину один из наших старших администраторов покинул нашу организацию и передал мне ответственность за «систему визуализации документов». Я был невысоким человеком в команде, неопытным и готовым во что бы то ни стало прыгнуть.
Это было похоже на старую рекламу Coca-Cola с Подлым Джо Грином ... Я был полностью доволен тем, что стал главным (единственным) администратором производственной системы, ориентированной на клиента, и, выходя за дверь, он сказал: «Эй, малыш, поймай "Думаю, он бросил мне пачку скомканных бумаг с некоторыми логинами и номером телефона для поддержки вместо вспотевшего полотенца.
Эйфория быстро прошла ... система состояла из 2 серверов с базой данных, общего ресурса, примерно 6 рабочих станций со сканерами и приложениями обработки, а также веб-сервера и пользователей приложений, которые вошли в систему для просмотра документов. Это была нечестивая смесь apache и java и как минимум двух типов скриптов, работающих на Windows SQL Server. О да. Мы также заплатили за серию «настроек», которые часто выходили из строя и о которых их сотрудники службы поддержки всегда блаженно не знали.
Краткий список хороших времен:
Мало что было задокументировано, и я обнаруживал каждую морщинку, когда что-то ломалось. Например ... отчеты были неправильными или не были напечатаны. Или Desktop выдвинул новую версию JVM, и никто не мог сканировать. Или кто-то сбросил ключ с рабочей станции сканирования, и приложение вылетело. Или файловая система журнала переполнилась. Или данные из извлечения OCR привели к сбою приложения из-за неправильного захвата чего-либо и отправки его как незаконного. Или обнаружение, что было открыто около 3 дюжин заявок на поддержку различных отделов, и многие из них были открыты в течение нескольких месяцев. И т. Д. И т. Д. Я обнаруживал новые важные вещи по 4-5 раз в неделю и начал очень быстро изучать все тонкости этого приложения и его потребности, а также достаточно SQL Server, чтобы поддерживать БД в умеренном состоянии.
Самое приятное было, когда меня пригласили на внутреннее собрание группы пользователей, чтобы «поприветствовать» меня в моей новой роли. Я не шучу. 30 злобных пользователей в круге, а я должен сесть посередине.
Это было тяжело, но я выучил кое-что очень быстро. Несмотря на всю боль, это была прекрасная возможность. Часть меня хотела бы, чтобы это не было таким испытанием огнем, но, возможно, я бы не научился так быстро.
Извините, это было так долго ... но ах ... это как терапия;)
Около 12 лет назад я начал работать системным администратором в интернет-провайдере среднего размера, где работало около 30 человек. у них никогда раньше не было настоящего системного администратора, просто некоторые люди, которые думали, что знают, что делают (иногда они были правы, чаще всего нет. В целом, удивительно, что системы вообще работали).
Однако вишенка на торте заключалась в том, что почти у всех присутствующих были корневые пароли к серверам. я не знаю о администраторе, но, конечно, все менеджеры, сотрудники службы поддержки, веб-разработчики и все, кто взаимодействовал с системой, имели root-права - как нынешние, так и бывшие сотрудники, поскольку они никогда не меняли его. и они ВСЕ будут его использовать. по прихоти. например, если клиент звонил в службу поддержки с жалобой, он входил в систему как root и возился с системой до тех пор, пока проблема этого конкретного клиента не была решена или каким-то волшебным образом не прекратилась (что они считали «решенной»). конечно, это вызовет множество других проблем ... с которыми другие люди в службе поддержки будут иметь дело одновременно, используя тот же метод «войти в систему как root и разделить систему».
Естественно, одним из первых моих шагов было изменение пароля root и внедрение процессов управления изменениями и других процессов для контроля того, что, когда, как и кем было изменено. о да ... и резервное копирование и контроль версий для файлов конфигурации тоже.
(первое, что я сделал, это закрыл их почтовый сервер с открытым ретранслятором и реализовал некоторую фильтрацию спама. на самом деле, я уверен, что получил эту работу, потому что в интервью я упомянул, что я сделал довольно много антиспама. - работа со спамом. Мне неизвестно, у них была серьезная проблема со спамом / открытым ретранслятором, которая длилась месяцами, и они не знали, как ее исправить, поэтому они постоянно попадали в черный список. Вскоре после этого я обнаружил ужасные новости что почти у всех на месте был root-доступ)
удаление root-прав у них сначала вызвало много гнева, но, к счастью, мой босс поддержал меня и то, что я пытался достичь, и они быстро поняли, что серверы были намного надежнее, чем когда-либо (не трудно достичь, учитывая, что было сделано с бедняками)
Я унаследовал веб-сервер IIS после того, как кто-то дал анонимному пользователю полный и полный доступ ко ВСЕМ на сервере. Их оправдание состояло в том, что это был единственный способ заставить свои веб-приложения работать.
Я не шучу.
Простая, первая работа менеджера по информационным технологиям, вошедшая в него, нашла пользовательское приложение для ввода заказов, которое было написано мужем клерка AP, в dBase вы могли смотреть на экраны и определять, в каком порядке они были закодированы, потому что он узнал по ходу: одни экраны были монохромными, другие выглядели как сброшенный на них дождевой ящик. Многие части заблокировали бы конкретный файл без исключения, поэтому только один представитель службы поддержки клиентов мог редактировать мастер-запись клиентов одновременно.
Добавьте к этому тонкий коаксиальный кабель в удаленном офисе с помощью дешевых навинчиваемых разъемов (без обжима). Поиск и устранение неисправностей в телефонных звонках начинался с того, что они говорили о том, что сеть не работает, а затем я спрашивал, перемещал ли кто-нибудь мебель, компьютеры, пылесосила ли где-нибудь уборочная бригада ... Если кто-нибудь дышит на кабели, разъемы отключаются достаточно свободно разорвать кольцо для жетонов, но не настолько, чтобы было видно, что они ослаблены.
Затем владелец возвращался из командировки с экземпляром USNews, указывал на компьютерную рекламу и спрашивал: «Почему бы нам не использовать эти серверы?» Некоторое время я думал, что живу в мультфильме Дилберта. Я просто знаю, что Скотт Адамс преследует меня, делает записи ...
Небольшая сеть, которая была полностью стандартизирована: Windows 95 и NT сервер.
Это было пару недель назад. ; - /
Ой. Вот как я началось эта работа.
Это было в 2000 году у небольшого интернет-провайдера. Большинство серверов представляли собой «серверное» оборудование класса Pentium 1 в корпусах Tower. Для аутентификации DNS и RADIUS это не было проблемой, и они фактически продолжали служить долгие годы, но реальным камнем преткновения было то, что все было BSD / OS 4.2. Хотя я был хорошо знаком с ней и FreeBSD (я фактически использовал эту версию BSD на своей первой работе), сказать, что к тому времени она была довольно архаичной, - ничего не сказать. какой был проблема была в почтовом сервере и веб-сервере. Это были немного более быстрые машины, но ужасно перегруженные. Я не думаю, что оборудование было таким же надежным. Больше похоже на настольные машины, которым (?) Посчастливилось (?) Не умереть. С момента основания компании в 1994 году ничего не модернизировалось. Все это было расположено в одном углу офиса, в котором по совпадению не было достаточного кондиционирования воздуха. И когда я говорю «офис», я имею в виду одну комнату на всех. В прошлом было несколько случаев сбоя сервера из-за перегрева.
Ладно, архаичная архитектура: проверь.
Предыдущий системный администратор: в высшей степени некомпетентный, проработал всего несколько месяцев, я думаю, он только начал запускать новую базу данных биллинга (и преобразовывать свою старую биллинговую систему: бумажную), прежде чем раствориться в воздухе. До этого: остановился владелец компании, который знал достаточно, чтобы создавать учетные записи, веб-сайты Apache и запускать серверы. Может быть, немного больше. Иногда ему помогал друг. Кто собственно работал риелтором. Отношение босса к системным администраторам: «Кому они нужны? Вы платите кому-то 40 тысяч долларов, чтобы тот сидел и пил кофе, читая журналы. Мне нужны представители службы технической поддержки».
Безопасность: нет. Нет действительно. T1 предоставил серверам подключение к Интернету. И офис. Исправлены публичные IP-адреса для всего. Отношение босса: «О, мы в безопасности. Мы работаем с BSD / OS 4.2! Никогда не взламывали!» По крайней мере, пароли не были полностью задержаны, но каждый сервер по умолчанию работал на каждой машине. Без исправлений, конечно. Древние версии каждого серверного демона тоже.
Пожары: везде! Все! На!! Пожар!!! То, что я сделал в первую очередь, в течение недели после приема на работу (могу добавить, в качестве технической поддержки. Хотите также заниматься системным администрированием? Делайте это, когда вы не заняты - я был достаточно молод и достаточно беден, чтобы это не волновало). сколотил сценарий оболочки, который будет контролировать, сколько раз клиент может одновременно входить в пул коммутируемого доступа. Это решило самую насущную проблему постоянной занятости коммутируемого пула из-за того, что спамеры использовали его как способ агрегирования пропускной способности. Я упоминал, что сервер AAA RADIUS не имел этой функции в этой версии? И что новый сервер AAA RADIUS может быть скомпилирован на этой платформе? Как и FreeRADIUS? См. Раздел 1, Архаичное оборудование. Позже я даже сделал то же самое, чтобы реализовать настоящую ах, бухгалтерский учет по коммутируемому соединению, так что люди, которые подписывались на 30 часов в месяц, не использовали 300 часов в месяц. Мне кажется, что почтовый сервер был не открытое реле, но это могло быть. Это был с другой стороны, ужасно перегруженный из-за того, что sendmail, в какой бы архаичной версии он ни использовался, все еще использовал формат mbox, который требовал синтаксического анализа каждого сообщения из плоского файла вместо почтовых ящиков формата Maildir с одним сообщением на файл. Поэтому, если кто-то с большим почтовым ящиком когда-либо проверял свою почту, сервер останавливался на все. И, конечно же, исходящие SMTP и POP находились на одной машине. Фильтры спама, конечно, не было. На входящей или исходящей почте. Я не могу вспомнить, что было не так с веб-сервером, кроме того факта, что каждый новый сайт добавлялся вручную. Это уже достаточно плохо.
Резервные копии: резервные копии? Ахахахаха! Аааааа!
Однако самым удивительным в этом месте было то, что здесь не было Распечатать сервер. Хотели распечатать файл? Встаньте из-за стола, поверните ручку переключателя на свой компьютер, вернитесь, распечатайте файл. Я помню, что вскоре я исправил и это.
Клиент, установивший Symantec Antivirus Server на каждый рабочая станция.
Файловый сервер, обслуживающий 250 ГБ файлов примерно для 30 клиентов (включая ноутбуки и настольные компьютеры), папки каждого из которых сопоставлены с общими сетевыми ресурсами. Плохо то, что он работал под управлением Windows XP с максимальным ограничением 10 клиентских подключений. Первым делом я отформатировал / установил Server 2003.
На следующий день мои коллеги были очень счастливы, так как все они могли работать одновременно.
от этого вопроса у меня болит голова. Я работаю на правительство ... выигрывает по самой низкой ставке!
Когда я занял свою нынешнюю должность, я провел 2 недели, работая с убегающим парнем, работая в основном над кодированием веб-приложения, над созданием которого он потратил 6 месяцев с подрядчиком, поэтому я имел хорошее представление о том, что происходило, когда приложение было запущен в производство. Через месяц приложение было очищено, и они бросили подрядчику деньги, чтобы тот просто ушел. Я все еще имею дело с приложениями vb6 без документации, которые иногда вызывают другие приложения, для которых у меня даже нет кода!
Я даже не собираюсь вдаваться во все причудливые конфигурации серверов, резервное копирование за пределами объекта, которое находится через чертову улицу, или что целый другой отдел «обрабатывает» наши маршрутизаторы и коммутаторы (о, они поняли это, сказав, что они перемонтируют Строительство БЕСПЛАТНО! Конечно, теперь они просто взимают плату за порты и блокируют двойные MAC-адреса! Ради бога, мы используем SIP-телефоны! И мы должны оправдать затраты на установку тестовой машины. Aaarrrrgggghhh!)
Я должен остановиться, это заставит меня плакать. Я каждый день удивляюсь, что все, что когда-либо делается в правительстве.
Когда я начал свою нынешнюю работу, я унаследовал ее от парня, которого через несколько недель уволили за грубую некомпетентность. Во время работы здесь ему не удалось многое сделать, кроме как уничтожить всю документацию, полученную от своего предшественника, изменить все пароли администратора на что-то случайное, даже если он не знал, и внедрить некоторые «скрытые» учетные записи в машины, чтобы впоследствии получить доступ. .
Пароли и бэкдоры не представляют особой проблемы, но продвигаться вперед, не зная, что происходит, что и как, было довольно интересно. Тем не менее, ни один пользователь никогда не страдал от этого, но мне повезло, что этот парень был даже слишком глуп, чтобы нанести реальный ущерб.
Моя текущая среда Domino должна быть такой. Один из предыдущих долгосрочных сотрудников был заинтересован исключительно в быстрой и грязной работе по разработке, поэтому нет основные хозяйственные работы сроком на 10 лет. Двое, которые следовали за ним, но опередили меня - что вполне понятно - взглянули на него и решили просто не поднимать головы. Итак, прямо сейчас у меня есть полный беспорядок из-за отсутствия стандартизированных соглашений об именах, учетных записей пользователей во всех ACL, старых администраторов и разработчиков, которые давно перешли на учетные записи (и все еще в чувствительных группах), половина пользователей имеет тот же пароль , у другой половины из них пароли записаны в электронной таблице, есть красивое приложение для критически важных сфер деятельности с два настраиваемые базы данных внутренней безопасности к тому же к стандартному ACL, более 1000 баз данных (включая материал «Копия копии копии»), которые прошли 4 или 5 быстрых и грязных обновлений, прежде чем были заморожены на уровне версии 6, и которые повреждаются почти ежедневно. Он также был параноиком в отношении масштабируемости Windows, так что у меня, кстати, есть компьютеры с 8 процессорами.
Вынести его на улицу и расстрелять было бы жалко.
Когда я начал работать в моей нынешней компании, они использовали Small Business Server 2003, со временем мы достигли точки, когда нам пришлось переключиться с SBS2003 на реальную «настоящую» серверную среду. К сожалению, пакет перехода не сработал для нас, и MS благодаря недавно приобретенному корпоративному лицензированию помогла мне все перенести. Под помощью я имею в виду предоставление мне списка вещей, которые нужно переместить и изменить, но не совсем того, как именно.
Я довольно хорошо разбираюсь в недрах Active Directory, но одна из вещей, о которых мне не сказали, - это то, как SBS делает НЕ как если бы одна из ролей FSMO была удалена, через 8 или 12 часов он перезагружается, чтобы показать, насколько он зол.
Было кошмаром выйти из SBS2003, и время от времени я вижу ссылки на SBS в AD или ссылки на старый сервер SBS то тут, то там, а прошло уже около 2 лет.
О, кстати, я НЕНАВИЖУ SBS! :)
Самая большая проблема, которую я унаследовал, была физическая, а не программное обеспечение. Серверный шкаф также был шкафом для электричества и телефона. Итак, климат-контроль был в порядке, в виде гигантского трансформатора, обогревающего комнату. Чулан также был за пределами комнаты, которая использовалась для небольших встреч. Мне пришлось повесить таблички, говорящие людям не закрывать двери в шкаф, даже если там было шумно. К счастью, кондиционер в главном здании был достаточным, и неисправности не было. Электромонтаж тоже был немного беспорядочным. В значительной степени ваше стандартное крысиное гнездо идет от коммутаторов к серверам. Лучшая часть этого заключалась в том, что одна из стоек находилась отдельно от пары других стоек, поэтому между стойками был небольшой проход. У него был только один сервер, и силовые кабели для него просто проходили по полу без защиты и не лежали ровно. Это позволяло легко зацепиться за них ногой. Когда вы падаете вперед и собираетесь столкнуться с растением, соединительный кабель с высокой шеей, лениво натянутый поперек, ловит вас и пытается сломать вам шею.
У меня не было возможности протянуть заплатку до потолка до того, как мы переехали в офис (в серверную с РЕАЛЬНЫМ кондиционером!), Но я сошел с ума от ремней на липучках по всему шкафу. Вы действительно можете пройти, не убивая себя после этого!
Моя первая работа заключалась в планировании перехода с мини-компьютера Point 4, которому исполнилось 18 лет. Они хотели модернизировать свое оборудование, «потому что владелец чувствовал, что существующее оборудование устаревает». В этом старом миникомпьютере с тайм-разделением использовался терминал Televideo 955 с переименованным в него пользователем ПЗУ, и в общей сложности на рынке была представлена 1 программа эмуляции терминала, которая позволила бы вам подключить к нему компьютер, чтобы он работал как тупой терминал. Конечно, эта программа работала только в Системе 7.
Продавец имел длинный с тех пор ушел из бизнеса. Детали были предоставлены поставщиком оборудования с годовым контрактом, и они приходили к вам раз в несколько месяцев, так как что-то еще ломалось и требовало замены.
Я руководил сетевым аудитом европейских операций ОЧЕНЬ крупного производителя компьютеров (Ирландия Кхм). На это потребовались недели, но мы обнаружили, что каждый бит данных, который был записан на каждый жесткий диск каждого ПК / сервера, который они сделали, перемещался по одним и тем же 4 нитям проводов - у них был один порт 1 Гбит / с, выполняющий ВСЕ их строит. Когда мы сказали им, что они ЗАБЕГАЛИ, чтобы получить больше кабелей / SFP, и в течение 30 минут они были подключены к сети, но это было шоком.
Сервер Windows 2003, который также является контроллером домена и запускает Exchange 2003. Пока достаточно плохо, но подождите, есть еще кое-что ... Это был также сервер терминалов, SQL-сервер, веб-сервер и FTP-сервер, сервер WSUS, обновления антивируса и сервер централизованной конфигурации и в нем размещались перемещаемые профили пользователей. Это также был центральный сервер резервного копирования, использующий ленты DAT.
Еще не так плохо? У машины был один ЦП, 2 ГБ ОЗУ и пара дисков SATA 7200 об / мин, сконфигурированных как RAID 1. Массив был разделен на 2 логических диска, при этом размер системного диска составлял 16 ГБ, из которых менее 2 ГБ было свободно. Машина была собрана из подержанных деталей подрядчиком, который рекомендовал спецификации, без сомнения, исходя из имеющихся у него деталей, и взимал почти столько же, сколько стоил бы приличный новый сервер. Он также отвечал за настройку и ввод машины в эксплуатацию. Его совет был принят, потому что он имел дело с клиентом почти десять лет. Я убедился, что он больше с ними не имеет дела.
Сервер с двумя жесткими дисками, закрепленными на аппаратном шасси - однажды умер один диск и зазвонил сигнал тревоги, ребята в офисе решили выключить сигнализацию, через три месяца умер второй диск, и они позвонили - нет доступа к своему серверу
Конечно, это было в конце 90-х, но я работал здесь. Наше серверное программное обеспечение работало в отладчике, который был рабочей машиной моего начальника, поскольку он делал большую часть своей работы дома на другой машине, но все же кто запускает их производственный код в отладчике?
База данных Informix, у которой самая загруженная и критически важная таблица имела 16 КБ экстентов, имела примерно 38 000 экстентов в табличном пространстве (подумайте о фрагментированном диске) и была вдвое выше поддерживаемого уровня. (Поставщик на самом деле написал бумажное письмо, в котором говорилось что-то вроде «Ваша база данных выйдет из строя в любой момент»)
Предыдущий администратор базы данных, SA и сетевой человек ушли, и я был около 6 недель вне школы. Я провел много исследований и выяснил, как решить проблему, которая потребует 6 часов простоя. Босс отказался запланировать отключение.
Так что в один из самых загруженных дней в году система зависает. 500 операторов call-центра и коммерческий сайт не работают. Исправить это после сбоя было сложно, потому что производитель никогда раньше не делал этого для таблиц такого размера и с чем-то вроде «интересной» схемы базы данных, которую мы использовали. Итак, мы сделали именно то, что я планировал сделать изначально, за исключением того, что проверка целостности базы данных заняла дополнительные 5 часов.
IIS 4 (или 3? Не помню) на NT 4, управляющий интрасетью компании на настольном компьютере без какой-либо избыточности или резервного копирования в течение примерно 12 лет, был (убрал его в прошлом месяце) худшим, что я видел, я думаю . Ничего особенного, но все же.
Одна компания, в которой я работал, когда я впервые приехала, имела офисный сервер (два жестких диска, один даже не смонтированный, тем более зеркальный) и арендованный размещенный сервер, всего один жесткий диск. Никаких резервных копий на магнитной ленте.
У остальной части LAN были свои проблемы, но чистая удача того, что место работало таким образом более 3 лет, поразительна. Ни зеркалирования, ни дублирования, ни лент.
Я держал Windows NT4 Box под управлением Citrix вживую ... изначально он был настроен с помощью программного рейда ... Верно ... Software raid, Windows NT4 .. Последний сбой повредил оба диска, и мне потребовалось ~ 8 часов, чтобы восстановить его ..
Для тех, кому интересно, Windows NT4 делает не нравится работать как виртуальная машина на хосте Linux :-D
На одной работе один из предыдущих администраторов подумал, что было бы неплохо настроить почти все серверы Sun на не автозагрузка. Он также не стал помещать сценарии инициализации в соответствующие каталоги уровня запуска, потому что «Я хочу знать если этот компьютер сломался "Я все еще не могу понять его рассуждения. Конечно, другой администратор был немного более рассудителен в таких вещах, что в основном приводило к непоследовательности всего магазина и действительно делало вещи интересными во время первого плановые и внеплановые отключения.
У клиента было 5 сотрудников. Их старый ИТ-специалист построил на заказ с использованием недорогого игрового компьютерного оборудования, 2 сервера. 1 также был контроллером домена с обменом. другой был терминальным сервером. Каждый сотрудник использовал тонкий клиент для подключения к серверу и работы с ним. Оба работали под управлением Windows 2000 и были созданы 5 лет назад. Излишне говорить, что когда рейдовые карты начального уровня умерли на обоих серверах в течение пары дней друг от друга, я заменил серверы стандартным сервером hp и получил их, используя обычные мини-башни. Я также поместил серверы на их собственные блоки ИБП вместо того, чтобы они оба работали от одного и того же, не имея резервной копии WAP и монитора.
Вдобавок к этому у них было 6 сетевых принтеров в офисе и 2 использовали DHCP. Остальным 4 были назначены IP-адреса, но они были разбросаны по делегированному диапазону IP-адресов без какой-либо документации.
Это было печально, но после месяца адаптации (старые ведьмы не слишком хорошо восприняли изменения в том, как они работали), теперь они звонят очень редко.
Меня вызвали, чтобы исправить плохо работающую систему MySQL, но я обнаружил неправильный элемент заголовка в /etc/my.cnf
из-за чего все прекрасные параметры настройки, которые они пытались использовать, игнорировались в пользу значений по умолчанию ...
Итак, у нас была система с БД 7 ГБ на сервере с 16 ГБ ОЗУ, использующая ядро базы данных InnoDB ...
Неправильная конфигурация была установлена на 12Гб RAM для InnoDB ...
Система использовала только 128МБ оперативной памяти для InnoBD ... так что / много / дисковой активности для каждого запроса и обновления!
Быстрое исправление заголовка, перезапуск службы MySQL и привет, все было кэшировано и выполнено превосходно :)
Странно, что никто не подумал проверить, действительно ли используются параметры настройки, которые они применили !! : - /