Войти



Последние материалы

Золотые партнеры:

Серебряные партнеры:

Бронзовые партнеры:

Автоматическое построение тематических узлов
Статьи
Автор: Лукашевич Н.В.   
06.01.2012 19:50

Автоматическое построение тематических узлов

Мы предположили, что лексические цепочки должны связывать не все близкие по смыслу слова текста, но соответствовать тематической структуре текста. Кроме того, лексические цепочки должны иметь форму узла - с главным выделяемым элементом, к которому относятся все другие элементы этой цепочки. Далее таким образом устроенные лексические цепочки будем называть тематическими узлами.

Важно еще подчеркнуть, что поскольку тематические узлы призваны моделировать основное содержание текста, то тематические узлы - это не последовательности близких по смыслу лексем, а совокупности близких по смыслу понятий, т. е. сущностей, в которых до какой-то степени устранен фактор лексической синонимии и многозначности.

В предыдущем разделе мы показали, что создать «правильный» (т. е. соответствующий тематической структуре анализируемого текста) тематический узел невозможно, используя только локальную информацию о расположении слов в соседних предложениях документа. Нужна совокупная информация о частотности и распределении слов в тексте, которую необходимо сопоставить с имеющимися в тезаурусе знаниями о существующих соотношениях значений слов. Поэтому лексические цепочки в форме тематических узлов не строятся при движении от предложения к предложению, а производятся из общей картины упоминания понятий в предложениях, полученной по тексту.

Как уже описывалось в предыдущих разделах, на предварительных этапах обработки текст был сопоставлен с тезаурусом:

-        текстовые выражения текста были сопоставлены с понятиями тезауруса;

-понятия тезауруса, найденные в тексте, соединены отношениями, описанными в тезаурусе.

На основе созданной таким образом тезаурусной проекции текста произведен выбор значений для многозначных текстовых входов тезауруса. Для построения тематических узлов существенны два фактора:

-        существование пути определенного вида между понятиями тезауруса;

-        встречаемость понятий тезауруса в одних и тех же простых предложениях текста.

При изложении методов построения лексических цепочек на базе тезауруса WordNet используются некоторые типы путей между синсетами, в том числе пути, состоящие из отношений различной направленности, т. е. пути с перегибами.

При построении тематических узлов на основе тезауруса РуТез мы отказались от использования путей с перегибами по следующим причинам.

Во-первых, в тезаурусе РуТез имеется больший набор прямых связей между понятиями тезауруса за счет транзитивных отношений часть-целое и отношений направленной ассоциации, описывающих концептуальную зависимость понятий тезауруса друг от друга. Во-вторых, мы считали важным дать возможность понятию тезауруса входить в несколько тематических узлов. В-третьих, понятия, соединенные путями с перегибами - виды одного рода, части одного целого и др. - достаточно часто могут выступать как разные, противопоставленные друг другу элементы основной темы.

Таким образом, в основном блоке текущей реализации алгоритма тематические узлы образуются на основе иерархически подчиненных понятий тезауруса, имеющих между собой пути, состоящие из отношений одной направленности.

Для учета совместной встречаемости понятий тезауруса в одних и тех же предложениях текста подсчитываются частотности встречаемости понятий в линейном контексте внутри предложения. Величина линейного контекста обычно устанавливается величиной 3, т. е. для каждого понятия запоминается по три понятия-соседа влево и вправо. Таким образом, в результате обработки отдельного текста для каждого понятия получается частотный список понятий-соседей - так называемые текстовые связи понятия.