Назад | Перейти на главную страницу

Как часто веб-пауки Google сканируют Интернет?

Всего через несколько часов после внесения некоторых изменений в HTML-код моего сайта я обнаружил, что Google обновил результаты поиска по моему сайту. Интернет настолько огромен, как сканер Google это сделал? Разве он не использует слишком большую пропускную способность?

Пауки Google постоянно ползают по сети. У них есть несколько машин, которые сканируют свой массивный индекс и все время добавляют в него новые страницы.

Причины, по которым это быстро:

  • У них тонны машин, которые ползут с невероятной скоростью
  • У них есть огромная пропускная способность
  • У них уже есть гигантский индекс страниц для поиска, что экономит время на поиск нового контента. Они могут запрашивать ранее проиндексированные ссылки и анализировать их на предмет новых ссылок для сканирования.
  • Они занимались этим годами и отточили свой алгоритм сканирования. Они продолжают работать над этим по сей день, чтобы сделать его еще лучше.
  • Некоторые сайты индексируются чаще, в зависимости от определенных факторов, причем PR (PageRank) является большим. Если у вашего сайта высокий PR, вы увидите, что он быстро обновится. Вот почему вы часто видите, что вопросы суперпользователя появляются в результатах поиска через несколько минут после того, как их задали.

Редактировать:

... среди многих других факторов.

У Google достаточно места и пропускной способности. Не беспокойтесь о них! По состоянию на январь 2008 года Google сортировал (в среднем) 20 ПБ в день.. 20 ПБ (петабайт) - это 20 000 терабайт или 20 миллионов гигабайт. Вот это просто сортировкаэто не все их данных, это лишь его часть.

Интересный вопрос возник при проведении экспериментов в таком масштабе: куда вы помещаете 1 ПБ отсортированных данных? Мы записывали его на 48000 жестких дисков (однако мы не использовали всю емкость этих дисков), и каждый раз, когда мы запускали нашу сортировку, по крайней мере один из наших дисков выходил из строя (это совсем не удивительно, учитывая продолжительность теста, количество задействованных дисков и ожидаемый срок службы жестких дисков). Чтобы обеспечить безопасность отсортированных петабайт, мы попросили файловую систему Google записать по три копии каждого файла на три разных диска.

Просто невероятно.

Частота сканирования Google определяется многими факторами, такими как PageRank, ссылки на страницу и ограничения сканирования, такие как количество параметров в URL.

а вот отличная статья о том, как это делается:

Анатомия крупномасштабной гипертекстовой поисковой системы

Я подозреваю, что Google использует несколько дополнительных сигналов, чтобы принять решение о повторном сканировании.

Активность учетной записи в инструментах аналитики или Google для веб-мастеров, активность в Twitter, поисковая активность, активность на панели инструментов, завершение хромированного URL-адреса, возможно, запросы к их службе DNS.

Затем им нужно найти, когда страница со списком была обновлена ​​в последний раз, и если да, то найдите вновь созданные страницы. Карта сайта - это предпочтительная страница со списком (У SuperUser есть один), затем подает, затем домашнюю страницу, которая имеет тенденцию отображать недавние страницы и, следовательно, обновляется всякий раз, когда появляется другая страница.