Назад | Перейти на главную страницу

Репликация или?

В последнее время мы сталкиваемся с ботами Google и всеми другими ботами (60% трафика веб-сайтов, который мы наблюдаем в среднем, поступает от ботов. Мы пытаемся сегментировать трафик роботов Google на другой сервер (недорогой сервер ). Однако базы данных должны быть реплицированы / или зеркалированы. Есть ли одно решение лучше другого, если мы хотим приблизиться к реальному времени? В настоящее время у нас есть данные наших производственных серверов в SAN. Мы могли бы реплицировать это, но это больше похож на репликацию снимков.

Не «сегментируйте» пауков.

Попытка «сегментировать» пауков WWW ведет к борьбе против владельцев пауков WWW, которые хотят, чтобы их пауки, насколько это возможно, видели то, что видят все остальные. Пройдите по этому маршруту, и вы окажетесь в постоянной гонке вооружений с владельцами пауков.

Проверьте дизайн своего сайта.

Высокий трафик пауков иногда является признаком плохого дизайна сайта. Например: гиперссылки, URL-адреса которых содержат идентификаторы сеанса, заставят пауки просматривать и сканировать отдельные страницы несколько раз. Проверьте журналы HTTP-сервера содержимого на предмет того, какой трафик на самом деле является. Если что-то сканируется снова и снова, отличаясь только такими вещами, как идентификаторы сеанса, настройте свой сайт так, чтобы эта проблема не возникала. Видеть Технические рекомендации Google чтобы найти и исправить другие ошибки в этом ключе.

Используйте предоставленные вам инструменты в качестве последнего средства.

Google предоставляет ручку регулировки скорости сканирования в Инструментах для веб-мастеров. Если вы убедились, что ваш сайт соответствует техническим требованиям и его дизайн не является основной причиной высокого трафика сканирования, используйте Инструменты для веб-мастеров. Но учтите, что если вам и дальше приходится делать это каждые 90 дней, чтобы снизить скорость сканирования статического контента, то, скорее всего, с дизайном вашего сайта что-то не так, чего вы не нашли и не исправили.

Ваши данные действительно так сильно меняются? Не могли бы вы предложить ботам менее часто обновляемую версию вашего веб-сайта на предлагаемом более дешевом сервере? Тогда вы сможете обновить эти данные за ночь или что-то в этом роде.

Зеркальное отображение базы данных для SQL Server на самом деле не позволяет использовать вторичный сервер для запросов - если только вы не используете моментальные снимки базы данных для доступа только для чтения, а это функция Enterprise edition. Ситуация меняется со следующим выпуском SQL Server, но это еще не все.

Зеркальное отображение базы данных также выполняется для каждой базы данных, поэтому, если у вас есть несколько баз данных, составляющих решение, вам необходимо отобразить их все.

Репликация больше касается перемещения подмножества данных - многие могут с этим не согласиться. Чем больше данных вы передаете с помощью какой-либо технологии, тем больше вам потребуется пропускной способности - иначе она начнет отставать.

Возможно, одним из решений было бы предложить ботам более статический контент вашего веб-сайта, который периодически обновляется в процессе.

Спасибо за ответ. Я предполагаю, что я попробую репликацию и посмотрю, как она пойдет. Репликация будет работать только ночью.

@JdeBP Я уже пробовал это делать и даже пытался установить минимальную скорость сканирования. В моем случае не помогло. Кроме того, это почти для 4000 сайтов.