Сайт дня: лечение наркомании в москве
Тезаурус и векторная модель в задаче поиска по коллекции нормативно-правовых актов РОМИП
В реальных условиях запросы пользователя по отношению к тезаурусу могут быть весьма разнообразны:
- запрос может быть очень коротким (например содержать отдельное многозначное слово, значение которого без диалога с пользователем выяснить невозможно),
- запрос может содержать некоторую совокупность слов, в которой не найдены термины тезауруса,
- запрос может быть достаточно длинным, и одна часть запроса может ограничивать контекст расширения для другой части запроса и др.
Для учета разных ситуаций была предложена смешанная модель, основанная на совокупности факторов, включая веса слов по пословной векторной модели, веса понятий тезауруса, нахождение сущностей из запроса в ограниченном числе предложений документа. Модель тестировалась на семинаре РО-МИП-2008 в коллекции нормативно-правовых документов (Агеев и др., 2008).
Основной направленностью разработки модели была обработка длинных информационных запросов, т. е. запросов, которые имеют длину более 3 слов и выражают некоторую информационную потребность. Информационные запросы условно противопоставляются навигационным запросам, суть последних в нормативно-правовой коллекции заключается в получении документа путем задания его формальных реквизитов: типа документа, номера документа, даты выхода, заголовка.
Для поиска документов по запросам в нормативно-правовой коллекции использовалась двухшаговая процедура.
На первом этапе исполнялась комбинированная векторная модель, построенная на двух индексах - индексе лемм и индексе понятий Общественно-политического тезауруса.
Понятия тезауруса дают возможность дополнительно учесть три дополнительных фактора:
- синонимию терминов,
-лексическую многозначность - производится предварительный выбор наиболее подходящего по контексту значения слов и выражений,
- близкое расположение в тексте компонентов многословных терминов и
выражений.
Поэтому результаты работы двух видов векторных моделей могут достаточно серьезно различаться.
Результаты работы векторных моделей комбинируются с помощью параметра a1, т. е. каждый документ получает вес по формуле (21.05):
где Wword - вес документа по пословной векторной модели, Wconc - вес документа по векторной модели, выполненной на основе понятий тезауруса. Из документов, найденных по смешанной векторной модели, отбирается 100 документов.
На втором этапе обработки запроса найденные 100 документов переупорядочиваются по следующему принципу. Максимальное число элементов запроса (слов и терминов) должны быть найдены не разбросанными по всему тексту, а сосредоточенными в двух парах соседних предложений. Коэффициент а2 оценивает относительную весовую значимость лемм и понятий тезауруса в предложениях.
Получение нового веса документа можно представить как двухпроходный процесс. Сначала подсчитываются веса отдельных предложений, которые получаются суммированием весов лемм и понятий из запроса, найденных в предложении (21.6), где Wwordi, Wconcj -веса слов и концептов предложения.
На втором проходе вычисляется «усиленный» вес каждого предложения: если не все элементы запроса найдены в текущем предложении, то проверяется, нет ли недостающих элементов в соседнем предложении или еще в одной паре предложений документа. Веса дополнительных элементов, найденных в других предложениях, домножаются на параметрические коэффициенты а4 (для присоединения элементов из соседнего предложения) и а5 (для присоединения элементов из другой пары рядом лежащих предложения).
Таким образом, формула «усиленного» веса предложения имеет следующий вид (21.7), где W1 - вес «главного» предложения, W2. - вес следующего предложения, W3., W4. -веса еще одной пары смежных предложений. Причем для каждого следующего предложения учитываются только те слова и понятия тезауруса, ассоциируемые с запросом, которые еще не были учтены для предыдущих предложений.
Наконец, на третьем этапе исходный вес документа, полученный на первом этапе, комбинируется с весом документа по предложениям, полученным на втором этапе.
Параметры модели оптимизировались на материалах дорожки нормативно-правового поиска romip-legal-2005. Оптимизировалось максимальное число релевантных документов в первых пяти документах выдачи, т. е. показатель Precision(5) (рис. 20.7).
В дорожке поиска по нормативно-правовой коллекции представленная модель показала лучший результат из 6 представленных алгоритмов, получив на первых 35 документах, которые были полностью оценены людьми-оценщиками, показатель средней точности MAP (Агеев, Кураленок, 2004) -0.296 (см. рис. 20.7), который превышает показатель следующего участника (0.276) на 7%.
Чтобы проанализировать, насколько хорошо модель отработала на целевом множестве длинных информационных запросов, мы разбили запросы на несколько групп, отдельно выделив длинные информационные запросы, длиной более 3 слов, например уплата налога на прибыль организацией при отсутствии затрат (27 запросов).
Пользуясь этой классификацией, мы разделили все оцененные запросы этой дорожки на соответствующие группы и оценили среднюю точность участников по этим группам. На длинных информационных запросах была получена средняя точность MAP - 0.36, что значительно превышает наш средний результат, а также результат на длинных запросах следующего участника (0.32).
Проведенный анализ качества работы системы на разных группах запросов показывает, что важно уметь автоматически классифицировать поступающие запросы и в зависимости от класса запроса применять различные алгоритмы поиска.

|