13.4. Основные понятия

Основная единица информации в системах текстового поиска называется документом. Документ - это не юридическая сущность, а содержательно законченная идентифицируемая уникальным образом единица информации, представленная на каком-либо естественном языке. В ранних ИПС документ рассматривался как атомарная (неделимая) единица. Для системы он был "черным ящиком". В более развитых системах текстового поиска содержание документа доступно системе для обработки и анализа.

Полнотекстовые системы текстового поиска оперируют электронными документами, т.е. документами, хранимыми в памяти компьютеров и доступными для автоматизированной обработки. Компьютерный лингвистический анализ и обработка текстовых документов возможны лишь в случае, если программно доступны отдельные элементы текстового документа. Поэтому совершенно недостаточно просканировать текстовый документ на бумажном носителе и сохранить полученное его факсимиле в памяти компьютера в виде графического файла какого-либо формата. Необходимо иметь документ в оцифрованном виде, т.е. в таком формате, что каждая литера текста этого документа программно доступна. Система может, таким образом, оперировать элементами содержания оцифрованного документа. Представление текстового документа в оцифрованном виде может быть создано, например, с помощью:

  1. Ввода содержания документа с клавиатуры с использованием какого-либо текстового редактора

  2. Сканирования его с бумажного носителя и использования программы распознавания оптических символов (Optical Character Recognition, OCR)

  3. Генерации текста программным путем распознавателями голоса или какими-либо другими способами.

Совокупность хранимых в системе документов по-разному называется в разных системах (поисковый массив, архив и т.п.). В последнее время для этой цели часто используется термин коллекция документов. Каждая система текстового поиска, вообще говоря, может поддерживать несколько различных коллекций документов.

Далее, документы хранятся в системе текстового поиска для того, чтобы удовлетворять информационные потребности пользователей. Представление информационных потребностей пользователя в форме, воспринимаемой программным обеспечением системы текстового поиска, называется пользовательским запросом (или для краткости просто запросом). Необходимым компонентом содержания пользовательского запроса является описание тех свойств, которыми обладают документы, интересующие пользователя. Это описание естественно называть критерием поиска.

Критерии поиска в пользовательских запросах могут иметь различную форму. Например, это может быть набор термов (слов или словосочетаний), содержащихся в требуемых документах, или термов, соединенных символами булевских операторов. В последнем случае булевский оператор интерпретируется как условие одновременного (оператор "И") вхождения связываемых им слов в документ, вхождения хотя бы одного из них (оператор "ИЛИ") или отсутствия вхождений (оператор "НЕ") следующего за ним терма. В более сложных случаях роль критерия поиска может выполнять предложение на естественном языке или даже пример документа, удовлетворяющего информационным потребностям пользователя. Анализируя такой документ, система выделит термы для формирования некоторого "внутреннего" вида этого пользовательского запроса.

Хранящиеся в системе документы, которые соответствуют пользовательскому запросу, называются релевантными.

Релевантность документа не обязательно должна оцениваться в терминах двузначной логики ("да-нет"). В некоторых развитых системах используются более тонкие оценки, которые вычисляются как значения специально подобранной числовой функции (функции релевантности), принимающей значения в интервале [0, 1]. В таких случаях уместно говорить о степени релевантности документа, понимая ее как значение этой функции.

Некоторые системы текстового поиска выдают пользователю множества документов, полученных в результате обработки запросов, упорядочивая документы по убыванию степени их релевантности. Такое упорядочение найденных документов называют их ранжированием. Пользователь может более эффективно анализировать ранжированное множество результирующих документов запроса. С большой вероятностью, наиболее интересующие его документы из числа найденных находятся в начале выводимого списка документов.

В силу различных причин, связанных, в частности, с трудностями автоматизации понимания естественного языка, а также с неточностью отображения информационных потребностей пользователя в запросе, в результате обработки пользовательского запроса могут быть найдены документы, не соответствующие информационным потребностям пользователя. Такое явление называется информационным шумом.

Важными характеристиками качества поиска в системах текстового поиска являются полнота и точность поиска. Полнота поиска определяет отношение количества релевантных документов, выдаваемых в результате обработки пользовательских запросов, к количеству фактически имеющихся в системе релевантных документов. Для количественной оценки точности поиска может служить доля релевантных документов во множестве результирующих документов запроса.