У нас есть Windows Sharepoint Services 3, установленная на машине Server 2003 R2 Enterprise SP2. У меня Adobe Reader 8 с установленным, настроенным и работающим iFilter. Я начал полное сканирование и возвращаю результаты поиска PDF, когда использую поиск. Это большое изменение по сравнению с тем, что было раньше, когда поиск содержимого PDF отсутствовал. В настоящее время бизнес-подразделение заметило, что для определенных слов он не находит подходящий PDF-файл.
Судя по всему, для некоторых PDF-файлов не все слова проиндексированы. Может кто поможет?
Я следил за различными статьями базы знаний Microsoft, лучший, который включает в себя все, что вам нужно здесь, а затем по-прежнему не мог искать весь текстовый контент в PDF-файлах.
Я проверил, работает ли поиск слов в самом PDF-файле (в Reader), и он работал, так что это не было проблемой распознавания текста. Что касается моей проблемы, были обнаружены следующие проблемы, которые нужно было изменить / вернуть:
Резюме: мне пришлось добавить учетную запись службы в качестве полного администратора, а затем убедиться, что задокументированные шаги были выполнены снова (подтверждение в моем случае), и теперь вуаля, решено.
Что касается текста с возможностью поиска в PDF, существует два типа файлов: те, которые были сохранены из Word и т. Д., Документы, которые «всегда были цифровыми», а есть те, которые были отсканированы с бумаги и получили OCR для угадайте, какие слова на бумаге.
iFilter не распознает текст в ваших документах. Если ваши документы изначально были отсканированы другим программным обеспечением, скорее всего, это программное обеспечение является подозрительным. Почти все OCR несовершенные, а некоторые - ужасные. Вы можете использовать Acrobat Reader на своем компьютере с открытым документом для поиска в нем слов. Это должно сказать вам, насколько хорошо OCR в документе.
Также обратите внимание на это сообщение с предложением OCR-текста может не работать в iFilter 8, и вам может потребоваться установить Reader 9 на сервере.
Наконец, если вы можете искать слова внутри PDF-файла с помощью Acrobat Reader, я бы взял документ и настроил SharePoint + iFilter в лаборатории с настройками по умолчанию и посмотрел, действительно ли что-то не так с iFilter.