Итак, сегодня у нас возникла проблема, когда менее десятка пользователей получали ошибки тайм-аута в OWA. «! Сервер занят. Сервер занят и отвечает на ваш запрос. Повторите попытку позже».
Все они внешние, поэтому проходят через наш TMG и поражают только один из двух наших серверов CAS для сайта, на котором находятся их почтовые ящики. Всего на этом сайте около 5000 почтовых ящиков, но большинство пользователей обращаются к массиву CAS изнутри и, таким образом, поровну распределяются между ними.
После проверки журналы IIS показывают> 200 случаев «превышения бюджета». Пример ниже.
Похоже, проблема заключается в «Максимальном эффективном времени в CAS», и Perfmon показывает, что это часто выходит за пределы 100%, пока я работал с Perfmon. Мы собираем данные о производительности через Solarwinds, но это не один из счетчиков, поэтому у меня нет истории. Однако наши последние 7 дней ведения журнала IIS показывают, что мы обычно видим однозначные числа в день "превышения бюджета".
Дело в том, что я практически ничего не вижу, что делать делать о сокращении «эффективного времени, проведенного в CAS» - кроме удаления / изменения моей политики регулирования. Больше ничего не бросается в глаза по поводу производительности на этом сервере. ЦП и ОЗУ в порядке - это двухпроцессная виртуальная машина, в которой в среднем используется ~ 27% ЦП на каждый процесс. 12 ГБ ОЗУ, 3 ГБ кэширования, 3 ГБ доступно, 50 МБ свободно. Помимо правильной балансировки нагрузки, чтобы распределить нагрузку, что я на самом деле могу сделать, чтобы диагностировать и исправить эту проблему, которая возникает из-за этого счетчика?
2014-05-09 15:41:54 10.70.39.170 GET / owa / & ex = E303 & OverBudget (Normal / CAS), Владелец: Sid ~ domain \ username ~ OWA ~ false [Conn: 2, HangingConn: 0, AD: 18000 / 18000/0%, CAS: 90000 / -2602 / 155%, AB: 18000/18000/0%, RPC: 90000/89768/1%, FC: 1000/0, Политика: DefaultThrottlingPolicy_aaadc777-4ff8-4a5e-97cc-2ec1e383cb7b , Норма] & v = 14.3.174.1 & mbx = SERVER01.company.local & sessionId = e842baf430514576aabf3ef6f372494c & prfltncy = 1 & prfrpccnt = 0 & prfrpcltncy = 0 & prfldpcnt = 0 & prfldpltncy = 0 & prfldpcnt = 0 & prfldpltavncy = 0 & prfldpltavncy = 0 & prfldpltavncy: %, CAS: 90000 / -2602 / 155%, AB: 18000/18000/0%, RPC: 90000/89768/1%, FC: 1000/0, Политика: DefaultThrottlingPolicy_aaadc777-4ff8-4a5e-97cc-2ec1e383cb7b, Norm 443 company.local \ Mozilla / 5.0 + (Macintosh; + Intel + Mac + OS + X + 10_9_2) + AppleWebKit / 537.75.14 + (KHTML, + like + Gecko) + Version / 7.0.3 + Safari / 537.75.14 200 0 0 202
Я добавляю свой ответ, потому что он сработал. Если кто-то сможет заполнить «Почему» это сработало, что действительно объяснит, что именно сломалось, я буду рад принять это как лучший ответ.
Мое исправление: перезагрузка.