Войти



Последние материалы

Золотые партнеры:

psp

Серебряные партнеры:

Получение пожарного сертификата - пожарный сертификат получить. Сертификационный центр Рос-тест. . Быстрая доставка цветов по Москве. Курьерская служба доставки цветов по Москве.

Бронзовые партнеры:

Лексические цепочки: использование информационно-поисковых тезаурусов
Статьи
Автор: Лукашевич Н.В.   
06.11.2011 13:29

Лексические цепочки: использование информационно-поисковых тезаурусов

О. Медельян (Medelyan, 2007) предлагает использовать недостающее в WordNet ситуативное знание на основе информационно-поискового тезауруса (в работе используется тезаурус AgroVoc). Она указывает, что наиболее известные алгоритмы построения лексических цепочек слишком зависят от порядка слов в тексте, что не соответствует реальной ситуации, когда одно и то же содержание может быть выражено с помощью по-разному упорядоченных последовательностей предложений. Поэтому в работе предлагается сначала собрать цепочки-кандидаты со всего текста, а затем, получив целостную картину лексических цепочек-кандидатов текста, применить разбиение получившегося графа на наиболее связанные фрагменты.

Лексическая цепочка определяется как граф G = (V, Е) с узлами vi €V, представляющими термины тезауруса, и дугами графа (vi, vj,-, wij) € Е, описывающими отношения между терминами, где wij - это вес, выражающий силу отношения между терминами.

Такой граф строится следующим образом. Как и в предшествующих алгоритмах, цепочки-кандидаты строятся по порядку расположения слов в тексте. Различия возникают в том случае, когда очередной термин может быть отнесен более чем к одной лексической цепочке. Тогда эти цепочки склеиваются в единую цепочку, а составные части этой единой цепочки удаляются из списка цепочек.

Получается граф достаточно сложной формы (см. рис. 14.3). Этот граф с помощью алгоритмов кластеризации графа разбивается на фрагменты так, чтобы между каждым элементом подграфа было расстояние не более 3 шагов, тем самым получаются сильно связанные между собой подграфы, которые и предлагается считать лексическими цепочками.