Назад | Перейти на главную страницу

Google Webcache: утечка информации, несмотря на требование входа в систему

Искал как сумасшедший часами.

Что произошло:

При поиске в Google определенных ключевых слов я использовал их функцию предварительного просмотра сайта (где вы получаете это маленькое всплывающее окно с изображением страницы), которая показывает кэшированные Google версии страниц на моем сайте.

Я всегда предполагал, что Google сможет видеть контент сайта, доступный только анонимным пользователям. Я наивен?

К моему удивлению, эта кешированная версия показала контент, который виден в веб-браузере только тогда, когда пользователь сайта вошел на мой сайт. URL-адрес страницы, о которой идет речь, такой же, только содержимое изменяется в зависимости от того, кто вошел в систему / является ли пользователь анонимным. Еще более беспокоит то, что эта информация видна только тогда, когда штатный пользователь вошел в систему.

Я использую Django / ModWSGI на уровне приложения. Я трижды проверил, не сможет ли анонимный пользователь увидеть указанный контент.

Теперь, если у Google нет доступа к информации для входа в систему штатного пользователя моего сайта и не использует эту информацию при сканировании моего сайта (во что мне трудно поверить), причина должна быть где-то на стороне клиента.

Вопрос:

Существуют ли плагины веб-браузеров, которые по какой-то причине отправляют просмотренный контент веб-сайта в Google? Конечно, я хотел бы спросить своих штатных пользователей в этом случае, но это будет более плодотворно, зная, что искать. Используемые клиенты: Firefox 3.x на Win / Mac / Ubuntu, IE 7/8, Safari на Win / Mac.

Как я могу защитить свой сайт в этом отношении, чтобы избежать такой утечки информации?

Спасибо!

редактировать

Дополнительные наблюдения / информация:

Я могу гуглить свой сайт, используя ключевые слова, которые обычно видны только некоторым штатным пользователям, поэтому я прихожу к выводу, что у Google должна быть связь этого ключевого слова с моим сайтом, хранящимся где-то в его базе данных (по крайней мере, я не уверен, как еще это будет работать) .

Версии веб-кеша указанной страницы на моем сайте около недели (по данным Google), и когда я просматриваю эту кешированную версию, найденные ключевые слова выделяются, даже после того, как веб-браузер очистил свой собственный кеш, и пока я в настоящее время не вошел в свой сайт.

У Google есть только анонимный доступ к любому сайту, который он сканирует.

Ваша предпочтительная CMS может отправлять различное содержание в Google, но это должно быть настраиваемым. Также имейте в виду, что Google мог сканировать сайт в тот момент, когда его содержание было общедоступным, и если впоследствии он стал частным, они могли не обновлять свой индекс.

Я очень сомневаюсь, что существуют какие-либо плагины для браузеров, которые отправляют контент веб-сайтов в Google именно по этой причине. Нет конца конфиденциальным веб-страницам, защищенным логином пользователя, и Google был бы в ужасной ситуации, если бы сохранил эту информацию, не говоря уже о том, чтобы отображать ее в результатах поиска.

Всплыли новые факты, которые привели к раскрытию дела.
Может быть, когда-нибудь это поможет кому-то другому.

1) Google действительно указал страницу в своем кеше так, как я могу ее просматривать в Google. Поскольку сканирование выполняется только анонимным пользователем, утечка информации в конце концов должна происходить на стороне сервера.

2) Я сузил утечку информации до одной определенной страницы (означает представление Django для всех вас, Djangonauts), к которой можно получить доступ через разные URL-адреса, которые имеют только имя пользователя в качестве разницы.

3) Один из других разработчиков напортачил, перезаписав серверную переменную для этой страницы. Переменная, которая обычно содержит пользователя, который посещал страницу, была перезаписана пользователем, страницу которого он посещал. Если вы анонимно посетили страницу штатного пользователя, вы смогли увидеть информацию, которой не должны. :-(

Очистите кеш браузера, а затем попробуйте выполнить поиск или попробуйте поиск на машине, которая НИКОГДА не заходила на ваш сайт, и я готов держать пари, что конфиденциальная информация не будет отображаться в результатах поиска.

Я думаю, что это просто кешированная информация (на вашем локальном компьютере), которую вы видите, особенно в свете того факта, что URL-адрес можно увидеть с анонимной информацией, а «содержимое» на странице изменяется при входе в систему.