| Построение тезаурусного индекса и тезаурусной проекции |
| Статьи | |||
| Автор: Administrator | |||
| 20.12.2011 05:06 | |||
Построение тезаурусного индекса и тезаурусной проекцииНа первом этапе обработки текстов на основе тезауруса производится сравнение единиц текста с единицами тезауруса. Сравнение текста и тезауруса происходит на основе морфологического представления единиц текста и единиц тезауруса. Последовательности лемм, сопоставленные тезаурусному входу, сопоставляются с последовательностями лемм документа. При необходимости в процессе сопоставлении текста с тезаурусом могут быть применены методы неточного сопоставления (с появлением лишних слов внутри словосочетания, сменой порядка слов, применение словообразовательных вариантов и т. п.) или сопоставление на основе синтаксических структур. Но нужно учитывать, что в первом случае упадет точность сопоставления, во втором - дополнительно возрастет сложность сопоставления. Из множества найденных в конкретном месте текста единиц тезауруса выбирается единица, имеющая максимальную длину. Если один и тот же фрагмент текста соответствует разным единицам тезауруса, то фиксируется многозначность термина. В результате сопоставления с тезаурусом текст отражается в последовательность понятий тезауруса. Все синонимы (варианты) одного и того же понятия отображаются в соответствующий номер понятия и далее не различаются. Для каждого понятия тезауруса фиксируется частота его встречаемости в тексте. Таким образом, после разрешения многозначности языковых выражений создается так называемый концептуальный индекс документа, в котором синонимы сведены к одному и тому же понятию, а разные значения разведены к разным понятиям. Для учета отношений между понятиями, найденными в тексте, для всех понятий, связанных иерархическими путями (см. статью «Тезаурус РуТез как структура»), устанавливаются непосредственные отношения, которые выводятся на основе этих иерархических путей. Такая процедура осуществляется за счет заранее построенного дерева-вниз для всех понятий тезауруса. Совокупность связанных между собой понятий текста, полученных в результате применения процедуры вывода, называется тезаурусной проекцией. Следует отметить, что в подавляющем числе описываемых в дальнейшем приложений обработка текста производится не на полном объеме тезауруса РуТез, а на базе Общественно-политического тезауруса, к понятиям которого в случае необходимости с помощью специальной разметки добавляются те понятия Общего лексикона, которые важны для данного приложения. В дальнейшем эту расширенную совокупность понятий мы все равно будем называть Общественно-политическим тезаурусом. Такое решение связано с двумя факторами. Во-первых, многозначность текстовых входов в рамках Общественно-политического тезауруса значительно ниже, чем текстовых входов Общего лексикона, и, как мы увидим в дальнейшем, точность разрешения многозначности для текстовых входов Общественно-политического тезауруса значительно выше. Во-вторых, производится в основном тематическая обработка текстов, для которой важно упоминание тех или иных тематически-определенных сущностей в тексте, а не отношений между ними, основные понятия, соответствующие таким сущностям, сосредоточены именно в Общественно-политическом тезаурусе. Для большинства текстов тезаурусная проекция представляет собой сложную сеть отношений, которая может распадаться на несколько несвязанных фрагментов, а может содержать достаточно много различных связанных между собой понятий. Рассмотрим пример текста постановления Правительства РФ от 26 июня 1995 г. №604: О порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений военнослужащим и гражданам, уволенным с военной службы Во исполнение Закона Российской Федерации "О статусе военнослужащих" и в целях обеспечения прав на жилище военнослужащих и граждан, уволенных с военной службы, Правительство Российской Федерации постановляет: 1. Утвердить прилагаемое Положение о порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений военнослужащим и гражданам, уволенным с военной службы. 2. Министерству обороны Российской Федерации и иным федеральным органам исполнительной власти, в которых предусмотрена военная служба: в месячный срок разработать и утвердить формы и перечень документов, необходимых для принятия решения об оказании военнослужащим безвозмездной финансовой помощи на строительство (покупку) жилья и о выплате денежной компенсации за наем (поднаем) жилых помещений; расходы, связанные с оказанием военнослужащим безвозмездной финансовой помощи и выплатой денежной компенсации за наем (поднаем) жилых помещений, производить за счет и в пределах средств, выделяемых из федерального бюджета по сметам этих федеральных органов исполнительной власти. 3. Органам исполнительной власти субъектов Российской Федерации: оказывать безвозмездную финансовую помощь в избранном постоянном месте жительства гражданам, уволенным с военной службы, осуществляющим строительство (покупку) жилья, за счет и в пределах средств федерального бюджета, выделяемых на жилищное строительство для этой категории граждан; Полужирным шрифтом показаны те сущности, которые были найдены в качестве текстовых входов Общественно-политического тезауруса. На рис. 18.1 показан фрагмент тезаурусной окрестности для этого текста, который включает взаимосвязанную совокупность понятий тезауруса: СООРУЖЕ-НИЯ-ЖИЛЬЕ-СТРОИТЕЛЬСТВО ЖИЛЬЯ-ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРА ТИВ-ПОКУПКА-ПРОДАЖА
Рис. 18.1. Фрагмент понятийной сети (тезаурусной проекции) для текста постановления Правительства РФ от 26 июня 1995 г. № 604 Tags: Построение тезаурусного индекса и тезаурусной проекции Построение тезаурусного индекса разрешение лексической многозначности
|
