| Векторная модель информационного поиска |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 22.10.2011 18:58 | |||
Векторная модель информационного поискаДля упорядочения выдачи поисковой системы по мере соответствия ее запросу необходимо ввести веса соответствия документов запросу, которые должны вычисляться на основе входящих в запрос слов (Buckley и др., 1993). Простым способом определения значимости слова запроса в документе является частота употребления слова в документе (tf): чем чаще встречается слово запроса в документе, тем выше его вес. Такой способ вычисления веса слов запроса в документе предполагает, что все слова документа имеют одинаковую значимость. Однако слова документа могут иметь большую или меньшую различительную силу. Так, в базе «Законодательство России» практически каждый документ содержит слова закон, законодательство, Россия, Российский, поэтому данные слова в этой коллекции имеют низкую значимость для определения релевантности документов. Таким образом, можно предположить, что чем чаще в коллекции документов употребляется некоторое слово, тем меньше его значимость при нахождении релевантных документов. Частотность употребления слова в коллекции может быть учтена посредством вычисления количества документов в коллекции, в которых содержится это слово, - df. При возрастании df вес слова в документе должен снижаться. Это можно учесть, умножая частоту употребления слова в документе tf на его обратную величину - idf. Таким образом, вес слова в документе может вычисляться по формуле tf*idf. Idf часто вычисляется по следующей формуле: Idftj=log(N/nj)
где N - число документов в коллекции, nj - число документов, в которых встретился tj. Таким образом, пусть D = (d1,...,dn) - множество документов коллекции, T = (t1,..,tM) - множество слов - элементов запроса. Для каждого фиксированного i документ di - представляется вектором весов Wij = tfji* idfji= 1…M, (11.2)
где tfji - частота встречаемости слова tj в документе dj, idf,, - величина, обратная частоте встречаемости слова t, по всем документам коллекции. После вычисления весов всех слов в документе документ может быть представлен как вектор, в котором каждый компонент соответствует отдельному слову документа. Представление документов и запросов в виде векторов, входящих в них слов, и составляет суть векторной модели информационного поиска. Запрос также может быть представлен как вектор весов слов. Для определения сходства между векторами запроса и документа используется так называемая косинусная мера. Sim(q,di,) = (∑wqt* wdt) /(√(∑w2qt*∑w2dt) (11.3) Таким образом, теперь соответствие запроса документу измеряется конкретным числом, и все документы могут быть упорядочены в выдаче поисковой системы по этому числу. К преимуществам векторной модели информационного поиска относится то, что модель предоставляет простую модель для создания упорядоченной выдачи информационной системы. При этом конкретный способ вычисления весов слов в документе может меняться в зависимости от решаемой задачи и рабочей коллекции. Недостатком подхода является предположение о независимости слов в тексте, что противоречит тому, что в тексте используется множество связанных по смыслу слов.
|