Войти



Последние материалы

Золотые партнеры:

Серебряные партнеры:

Бронзовые партнеры:

Построение тезаурусного индекса и тезаурусной проекции
Статьи
Автор: Administrator   
20.12.2011 05:06

Построение тезаурусного индекса и тезаурусной проекции

На первом этапе обработки текстов на основе тезауруса производится сравнение единиц текста с единицами тезауруса.

Сравнение текста и тезауруса происходит на основе морфологического представления единиц текста и единиц тезауруса. Последовательности лемм, сопоставленные тезаурусному входу, сопоставляются с последовательностями лемм документа. При необходимости в процессе сопоставлении текста с тезаурусом могут быть применены методы неточного сопоставления (с появлением лишних слов внутри словосочетания, сменой порядка слов, применение словообразовательных вариантов и т. п.) или сопоставление на основе синтаксических структур. Но нужно учитывать, что в первом случае упадет точность сопоставления, во втором - дополнительно возрастет сложность сопоставления.

Из множества найденных в конкретном месте текста единиц тезауруса выбирается единица, имеющая максимальную длину. Если один и тот же фрагмент текста соответствует разным единицам тезауруса, то фиксируется многозначность термина.

В результате сопоставления с тезаурусом текст отражается в последовательность понятий тезауруса. Все синонимы (варианты) одного и того же понятия отображаются в соответствующий номер понятия и далее не различаются. Для каждого понятия тезауруса фиксируется частота его встречаемости в тексте. Таким образом, после разрешения многозначности языковых выражений создается так называемый концептуальный индекс документа, в котором синонимы сведены к одному и тому же понятию, а разные значения разведены к разным понятиям.

Для учета отношений между понятиями, найденными в тексте, для всех понятий, связанных иерархическими путями (см. статью «Тезаурус РуТез как структура»), устанавливаются непосредственные отношения, которые выводятся на основе этих иерархических путей. Такая процедура осуществляется за счет заранее построенного дерева-вниз для всех понятий тезауруса. Совокупность связанных между собой понятий текста, полученных в результате применения процедуры вывода, называется тезаурусной проекцией.

Следует отметить, что в подавляющем числе описываемых в дальнейшем приложений обработка текста производится не на полном объеме тезауруса РуТез, а на базе Общественно-политического тезауруса, к понятиям которого в случае необходимости с помощью специальной разметки добавляются те понятия Общего лексикона, которые важны для данного приложения. В дальнейшем эту расширенную совокупность понятий мы все равно будем называть Общественно-политическим тезаурусом.

Такое решение связано с двумя факторами.

Во-первых, многозначность текстовых входов в рамках Общественно-политического тезауруса значительно ниже, чем текстовых входов Общего лексикона, и, как мы увидим в дальнейшем, точность разрешения многозначности для текстовых входов Общественно-политического тезауруса значительно выше.

Во-вторых, производится в основном тематическая обработка текстов, для которой важно упоминание тех или иных тематически-определенных сущностей в тексте, а не отношений между ними, основные понятия, соответствующие таким сущностям, сосредоточены именно в Общественно-политическом тезаурусе.

Для большинства текстов тезаурусная проекция представляет собой сложную сеть отношений, которая может распадаться на несколько несвязанных фрагментов, а может содержать достаточно много различных связанных между собой понятий.

Рассмотрим пример текста постановления Правительства РФ от 26 июня

1995 г. №604:

О порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной

компенсации за наем (поднаем) жилых помещений

военнослужащим и гражданам, уволенным с военной службы

Во исполнение Закона Российской Федерации "О статусе военнослужащих" и в целях обеспечения прав на жилище военнослужащих и граждан, уволенных с военной службы, Правительство Российской Федерации постановляет:

1.      Утвердить прилагаемое Положение о порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений военнослужащим и гражданам, уволенным с военной службы.

2.      Министерству обороны Российской Федерации и иным федеральным органам исполнительной власти, в которых предусмотрена военная служба:

в месячный срок разработать и утвердить формы и перечень документов, необходимых для принятия решения об оказании военнослужащим безвозмездной финансовой помощи на строительство (покупку) жилья и о выплате денежной компенсации за наем (поднаем) жилых помещений;

расходы, связанные с оказанием военнослужащим безвозмездной финансовой помощи и выплатой денежной компенсации за наем (поднаем) жилых помещений, производить за счет и в пределах средств, выделяемых из федерального бюджета по сметам этих федеральных органов исполнительной власти.

3.      Органам исполнительной власти субъектов Российской Федерации:

оказывать безвозмездную финансовую помощь в избранном постоянном месте жительства гражданам, уволенным с военной службы, осуществляющим строительство (покупку) жилья, за счет и в пределах средств федерального бюджета, выделяемых на жилищное строительство для этой категории граждан;

Полужирным шрифтом показаны те сущности, которые были найдены в качестве текстовых входов Общественно-политического тезауруса. На рис. 18.1 показан фрагмент тезаурусной окрестности для этого текста, который включает взаимосвязанную совокупность понятий тезауруса: СООРУЖЕ-НИЯ-ЖИЛЬЕ-СТРОИТЕЛЬСТВО ЖИЛЬЯ-ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРА ТИВ-ПОКУПКА-ПРОДАЖА

 

Рис. 18.1. Фрагмент понятийной сети (тезаурусной проекции) для текста постановления Правительства РФ от 26 июня 1995 г. № 604