Клиент попросил нас удалить некоторые страницы из результатов поиска на общедоступных веб-сайтах. Я был в SSP и создал правила сканирования, чтобы удалить эти страницы. Казалось, что все работает нормально, но у нас проблема в том, что целевые страницы все еще отображаются в форме "www.domain.com/sitearea/", но не в форме "www.domain.com/sitearea/pages/default.aspx ".
Для каждой страницы этого типа мы создали одно правило для «исключения» пути «aspx» и другое правило для включения пути «/», но для «перехода по ссылкам в URL без сканирования самого URL». Мы попытались добавить правила для исключения формата «/», но в результате были исключены только все результаты ниже этого.
Кто-нибудь знает, как удалить отметки "area / pages / default.aspx" и "area /" из результатов поиска?
Я не уверен, что это "готовая вещь" - задать два вопроса в одном, но это в том же духе, так что все должно быть нормально. Мне было интересно, знает ли кто-нибудь об инструменте (или если это возможно), позволяющем администраторам сайтов исключать страницы из результатов поиска (не через SSP / правила сканирования). Я знаю, что они могут делать это на уровне сайта, но мне было интересно, позволяет ли что-нибудь сделать это на уровне страницы с помощью настроек страницы или сайта?
Если вы хотите исключить все страницы, такие как «area / pages / default.aspx» и «area /», правило исключения сканирования должно иметь звездочку в конце, то есть www.domain.com/sitearea/*
Я не уверен, что понимаю - мы говорим об исключении страниц из общедоступных поисковых систем, таких как Google, или из внутренней функции поиска для Sharepoint?
Что ж, в обоих случаях robots.txt должен работать для исключения веб-страниц из индексации поисковыми системами. Я не эксперт по Sharepoint, но беглый поиск в Google показывает, что поиск по Sharepoint подчиняется robots.txt, так что это был бы мой первый выбор.
Вот основные документация по формату robots.txt. Этот документ от Microsoft кажется описать управление поиском Sharepoint неплохо. Он говорит:
SharePoint Portal Server 2003 и SharePoint Server 2007 автоматически подчиняются ограничениям, содержащимся в файле Robots.txt.
- что я снова считаю, что поиск Sharepoint будет подчиняться файлу robots.txt.
Если ваш сайт общедоступен, вы можете открыть Аккаунт Google Webmaster Tools. У них есть несколько хороших инструментов для устранения различных проблем со сканированием и просмотра того, как ваш robots.txt будет работать на вашем сайте.
У меня проблема схожего типа, индексатор включает элементы навигации в поиск, но только для объектов STS_Web ... или они должны быть объектами STS_Web ... функции публикации WCM в SharePoint, похоже, помечают страницы приветствия как STS_ListItem_850 ... не STS_Web ... URL-адрес в результатах поиска - это URL-адрес Интернета, а не URL-адрес страницы (исключая Pages / Default.aspx), он индексирует страницу приветствия как Интернет, а не сам Интернет.
Попробуйте создать область поиска с правилами на основе свойства contentclass. Все сайты используют sts_site
ценность и сети sts_web
. Удаление любого класса содержимого с этими значениями должно предотвратить site/
версия домашних страниц от появления.
Я добавил URL-адрес для удаления результатов поиска, чтобы он не отображался на странице результатов поиска. Требования не изменились, и эти результаты нужно показать снова .. как их вернуть ..