Войти



Последние материалы

Золотые партнеры:

Визовый Центр: виза во францию.

Серебряные партнеры:

Пылесос Maxwell MW-3201

Бронзовые партнеры:

Эксперимент по использованию WordNet в рамках языковой модели информационного поиска. Часть 2.
Статьи
Автор: Лукашевич Н.В.   
02.11.2011 16:45

Эксперимент по использованию WordNet в рамках языковой модели информационного поиска. Часть 2

Анализ различных комбинаций подэлементов модели показал, что комбинация всех трех элементов модели (UM+LM+CM) всегда превышает показатели частичных комбинаций моделей. Это подтверждает мысль авторов, что посредством привлечения знаний из WordNet удалось использовать в поиске дополнительные сведения, которые не удалось получить на базе только использования информации о совместной встречаемости слов в текстовом окне.

Сочетание моделей UM+LM, то есть базовой модели и модели, основанной на отношениях WordNet, лучше, чем базовая модель UM. В работе делается вывод, что пригодность WordNet для той или иной коллекции может быть автоматически определена посредством автоматической процедуры настройки параметров, которая приписывает такие веса отношениям, установленным в WordNet, которые наиболее хорошо подходят для данной коллекции.

 

В работе (Shah, Croft, 2004) исследуется вопрос, насколько современные системы информационного поиска обеспечивают высокую точность в первых первых документах поисковой выдачи. Исследуя результаты поиска системы Lemur (Ogilvie, Callan, 2001) по заголовкам запросов TREC, авторы этой работы показали, что только в 40% из 150 исследуемых запросов на первом месте поисковой выдачи находился релевантный документ.

Проанализировав причины такой ситуации, авторы работы установили, что это происходит из-за следующих факторов:

-        наличия многозначных слов в запросе;

-        наличие слов различной значимости в запросе;

-        несоответствие слов запроса и коллекции. Так, причиной нерелевантности первого документа в выдаче по запросу «Fiber Optics Equipment Manufacturers» было то, что в релевантных документах коллекции чаще употреблялось слово «producers».

Рассматривая возможности автоматического расширения запроса, авторы отметили, что для обеспечения качественного расширения запроса необходимо определить, какие именно слова можно дополнить близкими по смыслу словами в контексте данного запроса и какими именно из близких по смыслу слов. Так, включение в запрос многозначного слова может привести к резкому снижению качества поиска.

Для определения критериев расширения запроса близкими по смыслу словами авторы предлагают использовать показатель ясности («clarity») слов. Вычисление этого параметра основывается на следующих наблюдениях.

Если в ответ на запрос получены релевантные документы, то первые документы выдачи характеризуются относительно высокой частотностью небольшого числа тематических терминов. Если же в ответ на запрос выдаются нерелевантные документы разнообразной тематики, то по распределению частот документы выдачи должны быть сходны с коллекцией в целом.

 

Основные этапы расширения запроса заключаются в следующем:

1)      вычислить ясность отдельных слов запроса;

2)      все слова запроса делятся по параметру ясности на три группы:

 

-        слова с высокой ясностью не расширяются и оставляются в запросе;

-        слова с низким показателем ясности исключаются из запроса;

-        синонимы слов со средним показателем ясности используются для расширения запроса.

В результате экспериментов было получено, что при поиске по заголовкам запросов параметр Precision(l) повысился на 16.40% (с 40.67% дс 46.67%), средняя точность выросла на 0.89%. При поиске по полю «описание запроса» мера Precision(l) повысилась на 18.18% (с 44.00% до 52.00%), средняя точность выросла на 11.45%.

Таким образом, выборочное расширение запроса синонимами из WordNel привело к значимому улучшению результата поиска как по критерии: Precision(l), так и по показателю средней точности.