| Языковые статистические модели (language modelling) |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 22.10.2011 19:55 | |||
Языковые статистические модели (language modelling)Языковые статистические модели являются моделями информационного поиска, относительно недавно адаптированными к этой задаче из других сфер автоматической обработки текста и речи. «Языковые статистические модели» - это группа статистических методов, которые оценивают вероятность появления последовательности из m слов P(w1...wm) посредством вычисления вероятностного распределения. Такие модели используются в самых различных сферах автоматической обработки текстов, например в распознавании речи, машинном переводе, морфологическом и синтаксическом анализе текста. В информационном поиске языковые модели используются для установления отношений между запросом Q и документами коллекции, в том смысле, что упорядочение документов при выдаче ответов на запрос определяется на основе оценки вероятности того, что языковая модель, построенная по документу, породит совокупность слов запроса P(Q|Md) (Ponte, Croft, 1998; Song, Croft, 1999). Равенство (11.6) представляет собой основную формулу языковой модели информационного поиска для так называемой униграммной модели, то есть в том случае, если все слова запроса рассматриваются как независимые друг от друга сущности:
Данная формула означает, что вероятность порождения запроса из документа в униграммной модели оценивается как произведение вероятности порождения отдельного элемента запроса из документа. Наиболее естественным способом оценки P(qi|d) является оценка вероятности встречаемости терма qi в документе d посредством так называемой оценки максимального правдоподобия (maximal likelihood estimate - MLE), т. е.
Оценка вероятности последовательностей слов может оказаться достаточно сложной для текстовых коллекций, поскольку некоторые возможные последовательности слов могли никогда не встречаться в базовой коллекции и не могли использоваться для качественной настройки языковой модели (training of language model), то есть возникает так называемая проблема нехватки данных (data sparceness). По этой причине важным элементом языковых моделей является процедура сглаживания (smoothing) (Chen, Goodman, 1998). Большинство формул сглаживания предложено в рамках моделей, созданных для распознавания речи. В сфере языковых моделей для информационного поиска ситуация нехватки данных проявляется в том, что если элемент запроса не содержится в документе, то при выбранном способе оценки вероятности получаем P(qi|d) = 0 и, следовательно, Р (q1,q2, ....qn | d) = 0. Все процедуры сглаживания основаны на некотором снижении оценки вероятности на основе уже встреченных событий (то есть на основе появления термина в документе), и за счет этого появляется возможность дополнительно оценить вероятность событий, которые в конкретном документе не встретились. Одной из распространенных техник сглаживания является учет вероятности появления слова в коллекции P(qi|C), и тогда обобщенная формула сглаживания выглядит следующим образом:
Другим примером формулы сглаживания является так называемая формула абсолютного дисконтирования (absolute discounting). Идея метода заключается в понижении вероятности встреченных слов путем вычитания констант вместо умножения их на коэффициенты λ и (1- λ):
Учет Р(qi|С) в языковых моделях играет роль, сходную с учетом обратной частотности (idf) в векторной модели информационного поиска (Zhai, Lafferty, 2001). Эксперименты в рамках конференции TREC (Ponte, Croft, 1998; Manning и др., 2008) показали эффективность языковых моделей для информационного поиска, однако существенным для эффективной работы методов является процедура подбора подходящей процедуры сглаживания. В работе (Zhai, Lafferty, 2001) исследовались различные виды сглаживания. На основе этого исследования авторы делают выводы, что некоторые виды сглаживания в информационном поиске лучше подходят для коротких запросов, а другие для более длинных сложных запросов.
|




