| Построение булева выражения для исходного запроса |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 08.02.2012 05:00 | |||
Построение булева выражения для исходного запросаФормула описания запроса наращивается по шагам. Установлены следующие параметры алгоритма: - docnummax - если число документов в выдаче меньше docnummax, то найденные на очередном шаге документы складываются в копилку документов (например, doc_num_max=50) в качестве потенциально релевантных; - docnum - если число документов в выдаче меньше этого числа, то запрос начинает расширяться, если больше - то сужаться (например, doc_num=20). Все действия по расширению и сужению запроса оцениваются относительно первых понятий тезауруса, начавших отдельную дизъюнкцию D0l. Построение формулы начинается с наиболее частотного в векторной выдаче понятия. На каждом шаге выполняется сформированный запрос, оценивается количество найденных документов. Рассматриваются две основные ситуации: 1) больше ли количество документов в выдаче, чем docnum, или 2) меньше, чем docnum. В первом случае булев запрос нужно сужать, т. е. дополнять конъ-юнкцию новыми элементами. В качестве нового конъюнкта берется поня-тие из ядра запроса, не связанное или с наименьшим весом связанное по тезаурусу с начальными понятиями дизъюнкций Di0 текущего булева выражения. Тем самым более близкие понятия оставляются как ресурс для возможного расширения запроса. Это дает возможность одни и те же понятия в некоторых запросах располагать в разных элементах конъюнкции (т. е. использовать для сужения запроса), а в других - как элементы одной и той же дизъюнкции (использовать для расширения запроса). Если таких (наиболее далеких) понятий несколько, то выбирается первое по списку понятий-кандидатов на добавление. Во втором случае необходимо расширять формируемый запрос, дополняя дизъюнкции. В качестве понятий, которыми могут быть дополнены дизъюнкты, могут использоваться: - понятия формулировки вопроса, еще не включенные в формируемое булево выражение и имеющие разрешенные тезаурусные пути к начальным понятиям дизъюнкций Di0 - понятия, которых нет в формулировке запроса, но которые находятся в дереве-вверх или в дереве-вниз начальных понятий дизъюнкций Di0 и которые были подтверждены информером последнего запроса как наиболее характерные для последней выдачи документов, - если таких понятий не имеется и есть еще понятия ядра формулировки, которые не включены в булево выражение, то последняя дизъюнкция запроса начинает наращиваться этими оставшимися понятиями. Результат исполнения последнего запроса (который содержит все понятия ядра) заносится в копилку. Отметим, что операции сужения и расширения запроса всегда применимы, пока не все понятия ядра запроса включены в формулу. Таким образом, алгоритм гарантирует включение всех понятий ядра запроса в формулу. Документы, полученные работой алгоритма, присоединяются к документам, полученным векторной моделью, и направляются на дальнейший анализ, который производится подобно процедуре, описанной в статью «Тезаурус и векторная модель в задаче поиска по коллекции нормативно-правовых актов РОМИП», посредством оценки наиболее наполненных элементами запроса и расширением запроса предложений Приведем пример сформированного феноменологической моделью булева выражения для следующей формулировки запроса: Запрос: Туристическая фирма (турагент) занимается реализацией путевок сторонних организаций в санаторно-курортные и оздоровительные учреждения. В соответствии с действующим законодательством реализация такого продукта не подлежит обложению НДС. Однако в ходе проверки налоговой инспекцией нам были предъявлены санкции за неуплату налога с суммы агентского вознаграждения. Правы ли в данном случае налоговые органы? ("Консультант бухгалтера", N 7, июль 2001 г.) Для данной формулировки выделены следующие понятия ядра, которые необходимо «уложить» в булево выражение (перечислены по алфавиту): АГЕНТСКОЕ ВОЗНАГРАЖДЕНИЕ НАЛОГ НА ДОБАВЛЕННУЮ СТОИМОСТЬ НАЛОГОВАЯ СЛУЖБА НАЛОГОВОЕ ОСВОБОЖДЕНИЕ ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕ ПУТЕВКИ НА ОТДЫХ И ЛЕЧЕНИЕ САНАТОРНО-КУРОРТНОЕ ЛЕЧЕНИЕ СТОРОННЯЯ ОРГАНИЗАЦИЯ ТУРАГЕНТ ТУРИСТИЧЕСКАЯ ФИРМА
Формирование булева выражения началось с понятия ТУРАГЕНТ. В результате последовательности шагов работы алгоритма был сформирован следующий булев запрос к поисковой системе: (ТУРАГЕНТ OR ТУРИСТИЧЕСКАЯ ФИРМА OR ТУРИСТИЧЕСКИЙ СЕРВИС OR ПОСРЕДНИЧЕСКАЯ ДЕЯТЕЛЬНОСТЬ OR АГЕНТСКОЕ ВОЗНАГРАЖДЕНИЕ OR ПОСРЕДНИЧЕСКАЯ ОРГАНИЗАЦИЯ OR ПУТЕВКИ НА ОТДЫХ И ЛЕЧЕНИЕ) AND {ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕ OR САНАТОРИЙ OR ДОМ ОТДЫХА OR ОТДЫХ OR ПРОФИЛАКТОРИЙ OR ДЕТСКОЕ ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕ OR СТОРОННЯЯ ОРГАНИЗАЦИЯ) AND {САНАТОРНО-КУРОРТНОЕ ЛЕЧЕНИЕ OR САНАТОРНО-КУРОРТНАЯ ПУТЕВКА OR ЗДРАВООХРАНЕНИЕ OR AND (НАЛОГ НА ДОБАВЛЕННУЮ СТОИМОСТЬ) AND {НАЛОГОВОЕ ОСВОБОЖДЕНИЕ OR НАЛОГОВАЯ СЛУЖБА) В процессе формирования этого запроса в «копилку» был сохранен 51 документ. Помимо понятий тезауруса, найденных в исходной формулировке запроса, феноменологическая модель добавила в булево выражение следующие понятия: - ТУРИСТИЧЕСКИЙ СЕРВИС - ПОСРЕДНИЧЕСКАЯ ДЕЯТЕЛЬНОСТЬ, - ПОСРЕДНИЧЕСКАЯ ОРГАНИЗАЦИЯ, -САНАТОРИЙ,
-ДОМ ОТДЫХА, - ОТДЫХ, - ПРОФИЛАКТОРИЙ -ДЕТСКОЕ ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕ - САНАТОРНО-КУРОРТНАЯ ПУТЕВКА, - ЗДРАВООХРАНЕНИЕ, -ЛЕЧЕНИЕ Tags: Построение булева выражения для исходного запроса Использование комбинированных моделей для поиска документов по запросам типа «формулировка проблемы» в правовой области Информационный поиск с учетом тезаурусных знаний
|