Назад | Перейти на главную страницу

Случайные машины на короткое время теряют соединение с MS SQL Server

Моя компания разработала приложение для наших внутренних процессов, которое работает примерно на 50 виртуальных машинах. Это работает уже более 5 лет, и в начале года мы настраиваем новый кластер серверов для нашей новой базы данных Microsoft 2014. Около 9 месяцев все шло отлично, а последние 3 месяца мы столкнулись с очень странной проблемой.

Случайно одна или две из 50 машин начнут видеть следующую ошибку.

Необработанная ошибка: при установке соединения с SQL Server произошла ошибка, связанная с сетью или конкретным экземпляром. Сервер не найден или не был доступен. Убедитесь, что имя экземпляра правильное и что SQL Server настроен на разрешение удаленных подключений. (поставщик: поставщик TCP, ошибка: 0 - истекло время ожидания операции.)

Затем процессы истекают, и обычно через 30-60 минут после этого он сможет подключиться к серверу, как будто ничего не произошло.

  1. Перезагрузка затронутых машин не решит проблему, придется подождать, пока проблема не исчезнет.
  2. В это время мы не можем пропинговать имя кластера или IP-адрес кластера, в то время как другие машины все еще могут.
  3. Мы не можем подключиться к порту SQL по telnet, в то время как другие машины могут
  4. Пострадавшие машины все еще могут получить доступ к другим сетевым ресурсам, но не могут получить доступ к этому кластеру.
  5. В SQL максимальное количество одновременных подключений установлено равным 0 для неограниченного количества, а тайм-аут установлен на 10 минут.
  6. Мы не нашли ничего согласованного на машинах приложений, поскольку проблема будет случайным образом обнаруживаться на всех из них, но когда-либо затронет только 1 или 2 машины за раз, и может потребоваться несколько часов или дней, чтобы повторно проявиться.

На данный момент мы не знаем, что происходит, и ищем идеи, которые могли бы это исправить.