Всего через несколько часов после внесения некоторых изменений в HTML-код моего сайта я обнаружил, что Google обновил результаты поиска по моему сайту. Интернет настолько огромен, как сканер Google это сделал? Разве он не использует слишком большую пропускную способность?
Пауки Google постоянно ползают по сети. У них есть несколько машин, которые сканируют свой массивный индекс и все время добавляют в него новые страницы.
Причины, по которым это быстро:
... среди многих других факторов.
У Google достаточно места и пропускной способности. Не беспокойтесь о них! По состоянию на январь 2008 года Google сортировал (в среднем) 20 ПБ в день.. 20 ПБ (петабайт) - это 20 000 терабайт или 20 миллионов гигабайт. Вот это просто сортировкаэто не все их данных, это лишь его часть.
Интересный вопрос возник при проведении экспериментов в таком масштабе: куда вы помещаете 1 ПБ отсортированных данных? Мы записывали его на 48000 жестких дисков (однако мы не использовали всю емкость этих дисков), и каждый раз, когда мы запускали нашу сортировку, по крайней мере один из наших дисков выходил из строя (это совсем не удивительно, учитывая продолжительность теста, количество задействованных дисков и ожидаемый срок службы жестких дисков). Чтобы обеспечить безопасность отсортированных петабайт, мы попросили файловую систему Google записать по три копии каждого файла на три разных диска.
Просто невероятно.
Частота сканирования Google определяется многими факторами, такими как PageRank, ссылки на страницу и ограничения сканирования, такие как количество параметров в URL.
а вот отличная статья о том, как это делается:
Я подозреваю, что Google использует несколько дополнительных сигналов, чтобы принять решение о повторном сканировании.
Активность учетной записи в инструментах аналитики или Google для веб-мастеров, активность в Twitter, поисковая активность, активность на панели инструментов, завершение хромированного URL-адреса, возможно, запросы к их службе DNS.
Затем им нужно найти, когда страница со списком была обновлена в последний раз, и если да, то найдите вновь созданные страницы. Карта сайта - это предпочтительная страница со списком (У SuperUser есть один), затем подает, затем домашнюю страницу, которая имеет тенденцию отображать недавние страницы и, следовательно, обновляется всякий раз, когда появляется другая страница.