| Лексические цепочки: использование информационно-поисковых тезаурусов |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 06.11.2011 13:29 | |||
Лексические цепочки: использование информационно-поисковых тезаурусовО. Медельян (Medelyan, 2007) предлагает использовать недостающее в WordNet ситуативное знание на основе информационно-поискового тезауруса (в работе используется тезаурус AgroVoc). Она указывает, что наиболее известные алгоритмы построения лексических цепочек слишком зависят от порядка слов в тексте, что не соответствует реальной ситуации, когда одно и то же содержание может быть выражено с помощью по-разному упорядоченных последовательностей предложений. Поэтому в работе предлагается сначала собрать цепочки-кандидаты со всего текста, а затем, получив целостную картину лексических цепочек-кандидатов текста, применить разбиение получившегося графа на наиболее связанные фрагменты.
Лексическая цепочка определяется как граф G = (V, Е) с узлами vi €V, представляющими термины тезауруса, и дугами графа (vi, vj,-, wij) € Е, описывающими отношения между терминами, где wij - это вес, выражающий силу отношения между терминами. Такой граф строится следующим образом. Как и в предшествующих алгоритмах, цепочки-кандидаты строятся по порядку расположения слов в тексте. Различия возникают в том случае, когда очередной термин может быть отнесен более чем к одной лексической цепочке. Тогда эти цепочки склеиваются в единую цепочку, а составные части этой единой цепочки удаляются из списка цепочек. Получается граф достаточно сложной формы (см. рис. 14.3). Этот граф с помощью алгоритмов кластеризации графа разбивается на фрагменты так, чтобы между каждым элементом подграфа было расстояние не более 3 шагов, тем самым получаются сильно связанные между собой подграфы, которые и предлагается считать лексическими цепочками. Tags: Лексические цепочки: использование информационно-поисковых тезаурусов Моделирование связности текста
|
