| Эксперимент по встраиванию тезауруса WordNet в вероятностную модель информационного поиска |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 02.11.2011 16:38 | |||
Эксперимент по встраиванию тезауруса WordNet в вероятностную модель информационного поискаВ работе (Liu и др., 2004) в качестве базовой модели информационного поиска используется формула OKAPI (Robertson, 1994), к которой добавлен поиск по фразам и используется расширение запроса по отношениям WordNet. После разрешения многозначности слов к запросу добавляются синонимы, гипонимы и слова из определений синсетов. Основное свое внимание авторы концентрируют на коротких запросах (двух- или трехсловных запросах). Значение многозначного слова в запросе выбирается на основе толкований синсетов WordNet. Значение слова в запросе может быть выбрано, если: - его толкование пересекается с другими словами запроса; - пересечение его толкования с толкованиями других слов запроса максимально, - толкование одного из его гипонимов пересекается с другими словами запроса, - если никакие проверки не привели к выбору значения слова, то берется наиболее частотное значение. Выбранные значения используются не для того, чтобы построить концептуальный индекс (индекс синсетов), а для того, чтобы найти подходящее расширение запроса.
Учитывая предшествующие неудачи использования WordNet для расширения запросов, авторы вводят дополнительные проверки возможности расширения, а также вес расширения. Важным элементом проверки возможности расширения запросов является предварительная оценка глобальной корреляции между отдельными словами. Для оценки глобальной корреляции между словами используется следующая формула: Globalcorrelation (t,-,s) = idf(s)log(dev(t,,s)), (11.15) dev (t/,s) = (co-occurrence (t/,s)-df/-sdf/N)/(df/sdf/N), где s - элемент запроса (отдельное слово или словарное выражение), t, - некоторое другое выражение, dЈ и sdf - это количество документов, содержащих t/ и s соответственно, N - число документов в коллекции, idf (s) - обратная частота встречаемости s, cooccurrence (t/,s) - число документов, в которых встречаются t, и s, dev (t/,s) показывает степень отклонения совместной встречаемости t, и s от независимого употребления. Рассмотрим, как авторы предлагают расширять запрос, состоящий из двух термов tj и t2, синонимами. Терм tn, который является синонимом к терму запроса t, в синеете S, может быть добавлен в качестве расширения запроса в одном из двух случаев: - или S является доминантным синсетом для терма tn, то есть tn наиболее часто употребляется в значении, соответствующем синсету S; -или t2 имеет высокую степень корреляции с tn, и величина корреляции между t2 и tn больше, чем величина корреляции между t2 и t,. При этом расширение производится со следующим весом: w(t,i) = f(tii,S)/F(t„), (11.17) где f (tn,S) - частота встречаемости терма tu в значении S, F(tn) - сумма всех частот для всех значений tn. Частота значений берется из информации, приписанной синсетам в WordNet, которая, в свою очередь, получена на основе разметки текстового корпуса значениями WordNet. Этот вес интерпретируется как вероятность того, что терм tn имеет значение S. Для расширения запроса гипонимами проводятся проверки другого рода. Пусть U - синсет-гипоним для tb Синоним из U добавляется к запросу в следующих случаях: 1) U - это единственный гипоним синсета S терма tb Для каждого терма tn из U этот терм добавляется к запросу, с весом (11.17), если U -это доминантный синеет tn; 2) U - это не единственный гипоним синсета S терма tb при этом определение U содержит либо термин t2, либо его синонимы. Тогда для каждого терма tn из U этот терм добавляется к запросу, с весом (11.17), если U - это доминантный синеет tn. Авторы работы показывают на пяти разных текстовых коллекциях конференции TREC, что применение технологии разрешения многозначности к коротким запросам и расширение запроса на этой основе приводит к росту средней точности поиска от 4 до 34%. Tags: Эксперимент по встраиванию тезауруса WordNet в вероятностную модель информационного поиска Тезаурусы в информационном поиске
|