Войти



Последние материалы

Золотые партнеры:

Серебряные партнеры:

Бронзовые партнеры:

Лексические цепочки и тематическая структура текста
Статьи
Автор: Лукашевич Н.В.   
06.01.2012 19:42

Лексические цепочки и тематическая структура текста

Во всех подходах по автоматическому моделированию лексических цепочек построение этих цепочек не является самоцелью - лексические цепочки выделяются для того, чтобы «приблизиться» к автоматическому построению тематической структуры текста, т. е. уметь выделять, что в тексте главное, что второстепенное, как текстовые сущности связаны друг с другом.

С целью выделения наиболее значимых для содержания текста лексических цепочек рассматриваются различные параметры лексических цепочек, такие как частотность ее элементов, текстовое покрытие и другие. В лексических цепочках выделяются наиболее частотные элементы цепочки в качестве наиболее важных тематических элементов текста.

Поскольку целью автоматического выделения лексических цепочек является автоматическое построение тематической структуры текста, рассмотрим методы построения лексических цепочек и вышеописанные проблемы их построения с точки зрения роли лексических цепочек в тематической структуре текста.

Многие исследователи указывают на то, что глобальная связность текста проявляется в том, что текст имеет единую тему. Тематическая структура текста представляет собой иерархическую структуру тем и подтем. Каждому предложению текста имеется некоторое соответствие в этой тематической структуре. Каждая тема (подтема) представляет собой пропозицию - предикат Р (Ci...Cn). Пропозиции тем (подтем) устанавливают отношения между тематическими элементами Ci...Cn. В иерархической тематической структуре главная тема Р0 (Coi...Con) поясняется, характеризуется, дополняется   деталями   посредством   подтем   Р|   (Си,   ....Cim)   ...   Pi   (Сл,

Что представляют собой тематические элементы подтем Су по отношению к тематическим элементам основной темы текста?

В силу глобальной связности текста в каждой подтеме по крайней мере один тематический элемент (а часто и больше) должен соответствовать тематическим элементам основной темы текста. Тематические элементы подтем могут представлять собой прямую отсылку на тематические элементы основной темы в виде точного повтора, синонимического повтора, референциальную отсылку или обозначать некоторую тесно связанную с элементом основной темы сущность, например ее часть, свойство и др.

Таким образом, на наш взгляд основная роль лексических цепочек относительно тематической структуры текста состоит в обеспечении представительства тематических элементов более высоких уровней иерархии в подтемах более низкого уровня (см. рис. 19.1).

Отсюда следует, что в «правильной» совокупности лексических цепочек текста, т. е. в лексических цепочках, отражающих тематическую структуру анализируемого текста, каждому тематическому элементу основной темы текста должны соответствовать свои лексические цепочки (которые могут иметь пересечение в некоторых словах). Кроме того, лексические цепочки действительно имеют наиболее важных представителей - это элемент темы более высокого уровня. Рядовые элементы цепочки - это тематические элементы нижестоящих тем, раскрывающих эту тему.

 

Таким образом, на наш взгляд, по внутренней структуре лексическая цепочка имеет структуру узла с выделенным центральный элементом и некоторой совокупностью лексем, связанных с этим центральным элементом. Назовем лексическую цепочку с такой предполагаемой структурой тематическим узлом. Среди тематических узлов можно выделить основные  и локальные тематические узлы. Основные тематические узлы имеют в качестве центра тематические элементы основной темы документа.

С другой стороны, пропозиция основной темы документа, т. е. взаимоотношения участников основной темы, также должна находить свое отражение в конкретных предложениях текста, которые должны раскрывать, уточнять взаимоотношения между тематическими элементами. Если текст посвящен обсуждению взаимоотношений между тематическими элементами Ci...Cn, то в предложениях текста должны обсуждаться детали этих отношений. Это проявляется в том, что сами тематические элементы Ci...Cn или их лексические представители должны встречаться как разные актанты одних и тех же предикатов в конкретных предложениях текста.

Отсюда следует практический вывод: если даже очень близкие по смыслу лексические сущности С| и С2 часто встречаются в анализируемом тексте в одних и тех же простых предложениях, то это означает, что данный текст посвящен рассмотрению отношений между этими сущностями, т. е. С| и С2 соответствуют разным тематическим элементам основной темы или подтемы текста и должны быть отнесены к разным лексическим цепочкам (тематическим узлам).

Таким образом, «правильные» лексические цепочки, отражающие тематическое содержание документа, должны отвечать следующим условиям:

1)      лексическая цепочка имеет внутреннюю структуру узла - к одному выделенному элементу относятся все другие элементы лексической цепочки;

2)      лексическая цепочка не должна содержать слова и словосочетания, которые часто встречались в одних и тех же предложениях текста с главным элементом этой цепочки, поскольку частая встречаемость некоторой лексической единицы Lj с начальным элементом цепочки L() может означать, что L, и L0 представляют собой равноправные элементы основной или локальной темы анализируемого текста;

3)      значимость цепочки для отражения содержания текста определяется в первую очередь не длиной, покрытием и другими характеристиками цепочки, а тем, насколько часто элементы этой цепочки встречались с элементами других цепочек в одних и тех же предложениях текста, т. е. насколько много пропозиций конкретных предложений текста было посвящено обсуждению отношений между элементами некоторой совокупности лексических цепочек.