У нас есть база данных процедур IBM Notes, в которой используется отдельная база данных для хранения вложенных документов, к которым прикреплена текущая копия последней процедуры. Эта база данных является полнотекстовой индексированной для поиска процедур. Большинство процедур представляют собой документы Word и, похоже, не вызывают проблем, но процедуры определенного типа хранятся в формате PDF. У нас проблема с PDF-файлами. Похоже, что поиск не возвращает ничего, кроме документов Word, содержащих поисковую фразу, хотя есть много PDF-файлов, содержащих поисковую фразу. Есть ли какой-то параметр или что-то, что нужно настроить, чтобы заставить его находить PDF-файлы? Это настоящие PDF-файлы, а не TIF. MJ
Как вы можете прочитать в эта ссылка есть множество типов вложений, которые по умолчанию не индексируются:
По умолчанию все форматы файлов, поддерживаемые Tika 1.18, индексируются полнотекстовым индексом, за исключением следующих:
.au, .bqy, .cca, .dbd, .dll, .exe, .gif, .gz, .img, .jar, .jpg, .mov, .mp3, .mpg, .msi, .nsf, .ntf , .p7m, .p7s, .pag, .pdb, .png, .rar, .sys, .tar, .tar, .tif, .wav, .wpl, .z, .zip.
Как видите: PDF не входит в их число. НО: есть запись notes.ini, которую можно настроить для добавления специальных типов в этот черный список / замены этого черного списка:
Чтобы определить собственный список типов вложений для полнотекстового индексирования, добавьте следующий параметр notes.ini на сервер Domino или клиент Notes:
FT_USE_MY_ATTACHMENT_WHITE_LIST = 1 ...Настройте, какие типы файлов разрешить для всех баз данных.
FT_INDEX_FILTER_ATTACHMENT_TYPES = *.формат, *.формат где формат это формат файла. Используйте запятую между форматами.
Возможно, один из ваших администраторов установил этот параметр ini- для исключения файлов PDF.