Мой гугл-фу меня сейчас подводит.
Я пытаюсь выяснить, загружает ли веб-сканер Google двоичные файлы без изображений, когда он просматривает сайты. Я знаю, что он загружает (и индексирует) изображения и PDF-файлы, но как насчет .zip, .dmg и т. Д.?
Мой клиент предлагает множество пакетов программного обеспечения для загрузки на своем сайте, и они пытаются выяснить, составляют ли поисковые системы большую часть полосы пропускания, связанной с этими файлами.
Ответ на ваш первый вопрос кажется «может быть»:
Какие типы файлов может индексировать Google?
Google может индексировать содержание большинства типов страниц и файлов. См. Наиболее распространенные типы файлов.
Но ссылки на общие типы файлов - все текстовые.
Даже если ты поиск двоичных файлов, таких как установщики Windows (.msi), вы можете получить ссылку на страницу, содержащую файл, или прямую ссылку на файл, но Google почти наверняка решает, как его индексировать, основываясь на том, что находится вокруг ссылки на странице, а не путем загрузки и расшифровки содержимого двоичных файлов.
Что касается вашего главного вопроса, Рекомендуемый Google метод способ проверить, попал ли бот на ваш сайт или нет, - использовать обратный поиск DNS:
$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
Имейте в виду, что Миссия Google «состоит в том, чтобы организовать мировую информацию и сделать ее доступной и полезной для всех». Это означает, что они постоянно вводят новшества, пытаясь индексировать нетекстовые данные таким образом, чтобы сделать их доступными для поиска. Расширить идею ceejayoz о том, что то, что они не сделали этого вчера, не означает, что они не сделают этого завтра: Google сделает все возможное, чтобы сделать это завтра!
Вместо того, чтобы делать предположения, почему бы не проверить access_logs, чтобы узнать, что такое User Agent или запрашивающий хост? Таким образом, вы даже можете определить, какую полосу пропускания использует Google (или другие сканеры), добавив трафик данных для каждого запроса.
Недавно я заметил необычный всплеск трафика моего веб-сервера. Просмотр веб-статистики показал, что небольшой набор больших двоичных файлов на моем сайте был загружен в быстрой последовательности группой, казалось бы, связанных IP-адресов. я использовал urlquery.net чтобы узнать, кому принадлежат эти IP-адреса, и выяснилось, что все они принадлежат Google.
Я пришел сюда в поисках ответов, но, прочитав то, что говорили другие, я понял, что Google может сканировать двоичные файлы на наличие вредоносных программ или, по крайней мере, отправлять их в службы обнаружения вредоносных программ для сканирования. Мы знаем, что Google обнаруживает и помечает вредоносные программы на веб-сайтах, поэтому разумно предположить, что это связано с загрузкой соответствующих файлов.
Google "Если ваш сайт заражен" на странице написано: «Используйте инструмент« Просмотреть как Google »в Инструментах для веб-мастеров для обнаружения вредоносных программ».
Также обратите внимание, что указанные файлы не отображаются в результатах поиска Google, предположительно потому, что я использую robots.txt, чтобы запретить индексирование этих файлов. Предполагая, что я прав, когда Google находит двоичный файл, на который есть ссылка с общедоступной веб-страницы, он просканирует файл на наличие вредоносных программ, независимо от robots.txt, но проиндексирует файл только в том случае, если это разрешено robots.txt. Я думаю, что это именно то, что они должны делать, если сканирование выполняется нечасто.
Обновление: Google, похоже, делает это каждые десять дней или около того. Это повлияет на ограничения моей пропускной способности.