Web-инжиниринг

Pod


Поисковый образ документа   

Поисковый образ документа - это множество терминов, которые приписывают данному документу и используют при составлении запросов на информационно- поисковом языке(ИПЯ). В настоящее время в Internet применяется два типа ИПЯ: координатные и булевы.

При координатном поиске запрос представляет из себя список терминов, которые называют ключевыми словами. Этот список сравнивается со списками терминов документов. При этом для каждого документа вычисляется степень его соответствия запросу(формальная релевантность) в соответствии с которой все ссылки на документы ранжируются. В качестве ключевого термина может быть использовано и устойчивое словосочетание, например, "World Wide Web". В этом случае оно называется ключевой фразой или ключевым словосочетанием. С точки зрения системы поиска оно не отличается от обычного ключевого слова. В информационных системах типа Altavista такой поиск обычно называют простым.

При булевом поиске слова и фразы соединяются операторами булевой алгебры, которые в данном контексте принято называть логическими коннекторами. При этом их смысл можно проиллюстрировать на диаграммах Эйлера.

Весь прямоугольник соответствует всему множеству документов. Элипсы - множеству документов, содержащих слова или словосочетания "World Wide Web", "Web", "технология" соответственно. Пересечение элипсов - это документы, которые содержат оба слова (запрос типа "Web and технология"). Элипс "технология" без пересечения с элипсом "Web" - документы, содержащие слово "технология", но не содержащие слово "Web"(запрос типа "технология not Web"). Объединение элипсов это все документы, которые содержат либо слов "Web", либо слово "технология", либо оба слова одновременно ( запрос типа "Web or технология"). В принципе, возможен запрос типа "not ( Web and технология)". В этом случае речь идет о документах, которые не содержат ни одного из указанных в запросе терминов, т.е. лежат за пределами элипсов.


Последний вариант запроса реализован далеко не во всех поисковых системах и нужно внимательно читать подсказки, чтобы определить с каким типом not вы можете иметь дело. Оператор not может быть двух местной операцией или одноместной. При этом чисто внешне в запросах их отличить сложно. Но при двухместном not запрос последнего типа не может быть выполнен.

В Internet встречаются и более сложные системы индексирования и поиска, чем выше описанные, но они носят либо исследовательский характер, либо являются переносом традиционных технологий в сетевую среду.

Среди логических коннекторов некоторые системы позволяют использовать и позиционные коннекторы. Эти операторы учитывают взаимное расположение слов в тексте относительно друг друга. Довольно часто такой поиск называют полнотекстовым, что скорее носит рекламный характер, чем отражает реальное положение дел. Степень "полнотекстовости" в данном случае определяется числом параметров, которые хранятся на каждое слово документа. Исследования англоязычных текстов показали, что существенного улучшения результатов поиска при использовании позиционных параметров не происходит. Это утверждение верно при условии что, пользователь ориентируется с лексике выбранной тематической области и знает что он хочет получить.

далее...


Содержание раздела