| Обработка исходной формулировки запроса |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 08.02.2012 04:53 | |||
Обработка исходной формулировки запросаРабота модели начинается с того, что формулировка запроса сопоставляется с тезаурусом и составляется список упомянутых в запросе понятий. Для многозначных слов проверяется, не разрешается ли многозначность на основе текущего списка понятий. Если есть возможность разрешить многозначность, то производится выбор значения или снятие пометки многозначности. Для каждого понятия формулировки определяется количество документов предварительной векторной выдачи, в которых оно встречается. Следующее действие, которое нужно выполнить - построить списки близких по смыслу и поэтому потенциально объединяемых в дизъюнкции понятий запроса, на роль которых подходят понятия, связанные по иерархии тезаурусных связей. Для этого для каждого понятия С0 запроса должна быть найдена следующая информация: - понятия из запроса, находящиеся в «дереве-вниз» понятия С0 (см. статью «Тезаурус РуТез как структура»); - понятия из запроса, находящиеся в «дереве-вверх» понятия Со; - понятия из запроса, соединенные с С0 путем с «перегибом вверх». Данные отношения строятся для всех основных понятий запроса, включая многозначные. Важной частью обработки формулировки запроса является формирование его ядра. Ядро запроса составляют понятия тезауруса, для которых выполняются два условия: - они порождаются по однозначным терминам или многозначность терминов была разрешена, -их частота среди 100 документов, найденных по данному запросу по векторной модели, не менее 5. Необходимость выделения ядра запроса связана с тем, что в запросе типа «формулировка проблемы» может быть большое количество случайно упомянутых понятий, в том числе редко встречающихся в коллекции. В таких случаях их относительно малая частотность в целевой коллекции не является критерием их важности для релевантной выдачи. В ходе поиска документов задачей моделей является сформировать булев запрос к поисковой системе так, чтобы он включал все понятия ядра исходного запроса. В процессе формирования запроса найденные документы складываются в «копилку» документов. Tags: Обработка исходной формулировки запроса Использование комбинированных моделей для поиска доку-ментов по запросам типа «формулировка проблемы» в правовой области Информационный поиск с учетом тезаурусных знаний
|