Войти



Последние материалы

Серебряные партнеры:

Бронзовые партнеры:

Использование лексических цепочек для порождения аннотаций
Статьи
Автор: Лукашевич Н.В.   
06.11.2011 13:52

Использование лексических цепочек для порождения аннотаций

Применение лексических цепочек для автоматического аннотирования позволяет решать несколько задач, возникающих в нроцессе авюмагического аннотирования документов. Они помогают выявлять основную тему документа и, кроме того, являются дополнительным фактором обеспечения связности создаваемой аннотации. Рассмотрим подробнее некоторые из предлагаемых подходов по использованию лексических цепочек для порождения разного вида аннотаций.

 

Одной из первых работ, описывающих применение алгоритмов выявления лексических цепочек к автоматическому аннотированию текстов, была работа (Barzilay, Elhadad, 1999). Как указывалось в п. 14.2.3, в этой работе был реализован алгоритм построения лексических цепочек на основе WordNet, а также были предприняты усилия, чтобы разобраться, какими свойствами должны обладать так называемые сильные лексические цепочки, т. е. цепочки, которые наилучшим образом отражают содержание текста.

Идея применения лексических цепочек для автоматического аннотирования документов состоит в том, что если цепочка отражает важные темы документа, то для аннотации необходимо выбирать предложения, в которых встречаются элементы этих важных цепочек. Конкретный алгоритм был следующим: для каждой цепочки выбираются ее представители - элементы цепочки, частотность которых превышает среднюю частотность элементов цепочки. Для составления аннотации берутся первые по порядку текста предложения, которые содержат элемент-представитель для каждой из сильных лексических цепочек. Таким образом, каждая сильная лексическая цепочка представлена, по крайней мере, одним предложением в аннотации.

Для оценки качества предложенного метода автоматического аннотирования было выбрано 40 новостных текстов, каждый в среднем по 30 предложений. Пять асессоров должны были сделать два вида аннотаций для этих текстов длиной 10 и 20% от длины исходного текста. На основе этих аннотаций была сформирована «идеальная» аннотация, которая содержала те предложения, которые были выбраны большинством асессоров.

Автоматически порождаемые аннотации были сравнены с аннотациями, порожденными суммаризатором Microsoft Word (см. табл. 14.2), посредством вычисления показателей полноты и точности:

Из табл. 14.2 видно, что аннотации, построенные на базе лексических цепочек, в значительной степени ближе к аннотациям, порождаемым людьми, по сравнению с суммаризатором Microsoft.

В работе (Doran и др., 2004) алгоритм автоматического аннотирования Barzilay&Elhadad тестируется на основе внешней задачи, а именно, в рамках задачи автоматического нахождения похожих текстов. Предполагается, что если автоматическая аннотация хорошо отражает основное содержание документа, то аннотации похожих документов будут также похожи, а аннотации разных документов также будут различаться.

Подход Barzilay&Elhadad сравнивался с тремя базовыми подходами: случайным выбором предложения, выбором блока первых предложений, выбором предложений на основе метрики tf.idf. Тестирование проводи-лось для разных коэффициентов сжатия от 10 до 60% аннотации. Подход Barzilay&Elhadad уступил базовым подходам только 1 раз: при 10% аннотации лучшими были аннотации, построенные на основе первых предложений исходных текстов.

В работе (Brunn и др., 2001), аннотации строятся на основе другого рода лексических цепочек. Используется «жадный алгоритм» типа (Hirst, St-Onge, 1998), который имеет следующие дополнения:

-        длина пути между элементами цепочки не более 2 отношений,

-        такие отношения должны быть между всеми элементами цепочки.

Наиболее значительное отличие данного подхода от других подходов заключается в том, что делается дополнительный предварительный шаг по от

бору существительных - кандидатов для включения в лексические цепочки.

В большинстве подходов предварительная стадия построения лексических

цепочек включает морфологический анализ и отбрасывание стоп-слов, которые часто дают ошибочные или малоинформативные лексические цепочки. В

данной работе проверяется предположение о том, что существительные, находящиеся в подчинительных предложениях, менее информативны, и их

можно не включать в процесс построения лексических цепочек.

В работе (Li и др., 2007) исследуется возможность использования лексических цепочек для построения обзорного реферата по запросу. Построение лексических цепочек производится для получения наиболее сильных цепочек, в терминах работы (Barzilay, Elhadad, 1999).

Построение лексических цепочек в этой работе проводится в два этапа. На первом этапе строятся отдельные лексические цепочки, на втором этапе построенные лексические цепочки корректируются.

Построение цепочек происходит начиная с самых частотных синсетов. В начатую лексическую цепочку вносятся все синсеты, которые могут быть отнесены к синсетам цепочки по принятой мере близости. Этот процесс проводится для наиболее частотной половины из всех синсетов-кандидатов, для которых могут быть построены лексические цепочки. После построения цепочек определяются наиболее сильные цепочки.

На втором этапе сильные цепочки, содержащие хотя бы одно общее слово, сливаются в единую лексическую цепочку.

Для порождения аннотации по запросу из набора документов извлекаются предложения, имеющие наиболее высокий вес по следующей формуле:

Score=αP(chain)+βP(queries)+γP(nameentity),

где P(chain) - сумма весов лексических цепочек, участники которых были упомянуты в предложениях-кандидатах, P(queries) - сумма совпадающих слов в предложении-кандидате и формулировке темы запроса, P(nameentity) - число именованных сущностей, упомянутых как в предложении - кандитате, так и формулировке запроса. В экспериментах были подобраны коэффициенты а = 0.2, Р = 0.3, у = 05.