Войти



Последние материалы

Золотые партнеры:

Серебряные партнеры:

Бронзовые партнеры:

Построение булева выражения для исходного запроса
Статьи
Автор: Лукашевич Н.В.   
08.02.2012 05:00

Построение булева выражения для исходного запроса

Формула описания запроса наращивается по шагам. Установлены следующие параметры алгоритма:

-        docnummax - если число документов в выдаче меньше docnummax, то

найденные на очередном шаге документы складываются в копилку документов (например, doc_num_max=50) в качестве потенциально релевантных;

-        docnum - если число документов в выдаче меньше этого числа, то запрос

начинает   расширяться,    если    больше    -   то    сужаться    (например,

doc_num=20). Все действия по расширению и сужению запроса оцениваются относительно первых понятий тезауруса, начавших отдельную дизъюнкцию D0l.

Построение формулы начинается с наиболее частотного в векторной выдаче понятия. На каждом шаге выполняется сформированный запрос, оценивается количество найденных документов. Рассматриваются две основные ситуации: 1) больше ли количество документов в выдаче, чем docnum, или 2) меньше, чем docnum.

В первом случае булев запрос нужно сужать, т. е. дополнять конъ-юнкцию новыми элементами. В качестве нового конъюнкта берется поня-тие из ядра запроса, не связанное или с наименьшим весом связанное по тезаурусу с начальными понятиями дизъюнкций Di0 текущего булева выражения. Тем самым более близкие понятия оставляются как ресурс для возможного расширения запроса. Это дает возможность одни и те же понятия в некоторых запросах располагать в разных элементах конъюнкции (т. е. использовать для сужения запроса), а в других - как элементы одной и той же дизъюнкции (использовать для расширения запроса). Если таких (наиболее далеких) понятий несколько, то выбирается первое по списку понятий-кандидатов на добавление.

Во втором случае необходимо расширять формируемый запрос, дополняя дизъюнкции. В качестве понятий, которыми могут быть дополнены дизъюнкты, могут использоваться:

- понятия формулировки вопроса, еще не включенные в формируемое булево выражение и имеющие разрешенные тезаурусные пути к начальным понятиям дизъюнкций Di0 -         понятия, которых нет в формулировке запроса, но которые находятся в дереве-вверх или в дереве-вниз начальных понятий дизъюнкций Di0 и которые были подтверждены информером последнего запроса как наиболее характерные для последней выдачи документов,

-        если таких понятий не имеется и есть еще понятия ядра формулировки, которые не включены в булево выражение, то последняя дизъюнкция запроса начинает наращиваться этими оставшимися понятиями.

Результат исполнения последнего запроса (который содержит все понятия ядра) заносится в копилку. Отметим, что операции сужения и расширения запроса всегда применимы, пока не все понятия ядра запроса включены в формулу. Таким образом, алгоритм гарантирует включение всех понятий ядра запроса в формулу. Документы, полученные работой алгоритма, присоединяются к документам, полученным векторной моделью, и направляются на дальнейший анализ, который производится подобно процедуре, описанной в статью «Тезаурус и векторная модель в задаче поиска по коллекции нормативно-правовых актов РОМИП», посредством оценки наиболее наполненных элементами запроса и расширением запроса предложений

Приведем пример сформированного феноменологической моделью булева выражения для следующей формулировки запроса:

Запрос: Туристическая фирма (турагент) занимается реализацией путевок сторонних организаций в санаторно-курортные и оздоровительные учреждения. В соответствии с действующим законодательством реализация такого продукта не подлежит обложению НДС. Однако в ходе проверки налоговой инспекцией нам были предъявлены санкции за неуплату налога с суммы агентского вознаграждения. Правы ли в данном случае налоговые органы? ("Консультант бухгалтера", N 7, июль 2001 г.)

Для данной формулировки выделены следующие понятия ядра, которые необходимо «уложить» в булево выражение (перечислены по алфавиту):

АГЕНТСКОЕ ВОЗНАГРАЖДЕНИЕ

НАЛОГ НА ДОБАВЛЕННУЮ СТОИМОСТЬ

НАЛОГОВАЯ СЛУЖБА

НАЛОГОВОЕ ОСВОБОЖДЕНИЕ

ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕ

ПУТЕВКИ НА ОТДЫХ И ЛЕЧЕНИЕ

САНАТОРНО-КУРОРТНОЕ ЛЕЧЕНИЕ

СТОРОННЯЯ ОРГАНИЗАЦИЯ

ТУРАГЕНТ

ТУРИСТИЧЕСКАЯ ФИРМА

 

Формирование булева выражения началось с понятия ТУРАГЕНТ. В результате последовательности шагов работы алгоритма был сформирован следующий булев запрос к поисковой системе:

(ТУРАГЕНТ       OR

ТУРИСТИЧЕСКАЯ ФИРМА        OR

ТУРИСТИЧЕСКИЙ СЕРВИС       OR

ПОСРЕДНИЧЕСКАЯ ДЕЯТЕЛЬНОСТЬ        OR

АГЕНТСКОЕ ВОЗНАГРАЖДЕНИЕ     OR

ПОСРЕДНИЧЕСКАЯ ОРГАНИЗАЦИЯ         OR

ПУТЕВКИ НА ОТДЫХ И ЛЕЧЕНИЕ)

AND

{ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕ        OR

САНАТОРИЙ    OR

ДОМ ОТДЫХА  OR

ОТДЫХ     OR

ПРОФИЛАКТОРИЙ   OR

ДЕТСКОЕ ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕ OR

СТОРОННЯЯ ОРГАНИЗАЦИЯ)

AND

{САНАТОРНО-КУРОРТНОЕ ЛЕЧЕНИЕ       OR

САНАТОРНО-КУРОРТНАЯ ПУТЕВКА        OR

ЗДРАВООХРАНЕНИЕ        OR

AND

(НАЛОГ НА ДОБАВЛЕННУЮ СТОИМОСТЬ)

AND

{НАЛОГОВОЕ ОСВОБОЖДЕНИЕ       OR

НАЛОГОВАЯ СЛУЖБА)

В процессе формирования этого запроса в «копилку» был сохранен 51 документ.

Помимо понятий тезауруса, найденных в исходной формулировке запроса, феноменологическая модель добавила в булево выражение следующие понятия:

-        ТУРИСТИЧЕСКИЙ СЕРВИС

-        ПОСРЕДНИЧЕСКАЯ ДЕЯТЕЛЬНОСТЬ,

-        ПОСРЕДНИЧЕСКАЯ ОРГАНИЗАЦИЯ, -САНАТОРИЙ,

 

-ДОМ ОТДЫХА,

-        ОТДЫХ,

-        ПРОФИЛАКТОРИЙ

-ДЕТСКОЕ ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕ

-        САНАТОРНО-КУРОРТНАЯ ПУТЕВКА,

-        ЗДРАВООХРАНЕНИЕ,

-ЛЕЧЕНИЕ