Войти



Последние материалы

Золотые партнеры:

Маркетинговые исследования, маркетинговый консалтинг. Маркетинговые исследования, b826.

Серебряные партнеры:

Бронзовые партнеры:

Риторическая структура и риторическая связность текста
Статьи
Автор: Лукашевич Н.В.   
03.11.2011 05:14

Риторическая структура и риторическая связность текста

Каждый текст создается автором с некоторой целью. Цель написания каждого высказывания текста некоторым образом соотносится с предыдущими высказываниями и целью написания текста в целом. Таким образом, моделирование риторической связности состоит в том, чтобы определить, как конкретное предложение соотносится с предыдущими предложениями, что формализуется установлением некоторого набора отношений между парами предложений.

Одним из наиболее известных подходов к риторической связности текста является теория риторических структур (РСТ) (Mann, Thompson, 1987). Теория риторических структур основана на предположении о том, что любая единица текста связана хотя бы с одной другой единицей данного текста посредством некоторой осмысленной связи. Такие связи называются риторическими отношениями.

Риторические отношения могут быть симметричными и несимметричными. Примерами симметричных отношений являются такие отношения, как сравнение, отличие. Примерами несимметричных отношений являются отношения уступки, условия, последовательности и др. Например, в высказывании «1) Иван опоздал на работу, 2) потому что он попал в пробку» между двумя простыми предложениями (клаузами) имеет место риторическое отношение причины. При несимметричном риторическом отношении главная клауза называется ядром, а зависимая клауза - сателлитом.

Было предложено множество наборов риторических отношений, включающих в себя от нескольких отношений до нескольких сотен отношений (Hovy, Maier, 1995).

Многие подходы предполагают, что совокупность риторических отношений текста образует структуру в виде дерева (Кибрик, 2003; Carson и др., 2003; Marcu, 2000; Mann, Thompson, 1987; Cristea и др., 1998; Литвиненко, 2001), в узлах которого размещаются типы отношений между предложениями (см. рис. 14.1). Другие авторы указывают, что в риторической структуре имеет место пересечение ветвей и множественное подчинение, что требует для представления менее жестких структур (Wolf, Gibson, 2005).

Рис. 14.1. Пример построенной риторической структуры документа (Carlson и др., 2003)

Для исследования возможностей автоматического построения риторической структуры текста создаются различные корпуса текстов с разметкой риторической структуры. Первым таким корпусом с разметкой риторической структуры является англоязычный корпус, созданный на базе корпуса Репп Tree Bank (Carlson и др., 2003). Корпус включает 385 документов, для разметки используется ПО риторических отношений, которые объединены в 18 классов.

На основе этого корпуса создан статистический анализатор, позволяющий построить структуру дискурса в терминах теории RST (Soricut, Marcu, 2003). Парсер выполняет две задачи. Во-первых, это разделение предложений на элементарные дискурсивные единицы (простые предложения, причастные и деепричастные обороты). Во-вторых, парсер должен построить иерархию выделенных дискурсивных единиц и установить дискурсивное отношение между ними.

Приводятся данные, что парсер разделяет предложения на дискурсивные единицы с полнотой и точностью порядка 82%, разметка отношений между единицами по 18 классам отношений производится с 49% F-меры, по 110 типам отношений - 45% F-меры. Согласие между экспертами при ручной разметке составляет 77% для разметки по 18 типам отношений и 71.9% для разметки по 110 отношениям.

Разные типы текстов могут иметь разное риторическое устройство. Значительное число исследований посвящено риторическому анализу научных публикаций.

В работе (Swales, 1981) выделяются 4 основных риторических подструктуры введений в научную публикацию: указание сферы исследования, описание имеющихся результатов в данной сфере, описание собственных усилий в данной области.

В работе (Teufel, Moens, 2002) рассматриваются 7 риторических отношений для научных публикаций:

Aim - формулировка цели статьи,

Textual - описание структуры статьи,

Own - описание собственных методов, результатов,

Background — общепринятое научное знание,

Contrast - указание на недостатки других работ,

Basis - указание на согласие с другими работами или на продолжение других работ,

Other - нейтральное описание других работ.

Предлагаемый в работе риторический анализ не является иерархическим. Авторы работы подчеркивают, что хотя они согласны с авторами теории RST в том, что в большинстве случаев риторическая структура текста является иерархической, но вместе с тем они указывают, что имеется некоторый набор текстовых фрагментов, чей риторический статус может быть определен без анализа полной иерархической структуры текста. Другое отличие предлагаемого риторического анализа состоит в том, что определение риторического статуса текстового фрагмента производится не по отношению к соседним текстовым фрагментам, а по отношению к тексту статьи в целом.

На основе выделенных риторических отношений была разработана аннотационная схема, которая была использована для разметки 80 статей из конференций по компьютерной лингвистике. Созданная разметка послужила основой для создания автоматической системы разметки на базе машинного обучения с использованием наивного байесовского классификатора.

Для обучения были выделены следующие характеристики:

-        расположение предложения в тексте, измерявшееся разбиением текста на 10 частей;

-        расположение предложения внутри секции;

-        относительная позиция предложения в абзаце;

-        длина предложения;

-        содержание слов заголовка;

-        содержание важных слов документа, измеренных вычислением меры tfidf;

-        грамматическое время глагола;

-        модальность глагола;

-        наличие цитат.

Результаты работы программы были сопоставлены с ручной разметкой. Были вычислены точность, полнота и F-мера. Наиболее сложным для системы оказались категории Contrast (F-мера = 26%) и Basis (F-мера = 38%).