Войти



Последние материалы

Золотые партнеры:

Натяжные потолки цена

Серебряные партнеры:

Бронзовые партнеры:

Виды и методы автоматического аннотирования документов
Статьи
Автор: Лукашевич Н.В.   
06.11.2011 13:41

Виды и методы автоматического аннотирования документов

Современные объемы информации требуют автоматизации процесса краткого изложения отдельных текстов или группы текстов на одну и ту же тематику. Основной целью составления аннотации является изложение важной информации из исходного текста (текстов) с помощью меньшего количества предложений.

Существуют разные виды аннотаций (Radev и др., 2002). Индикативная аннотация должна передать информацию об общем содержании документа, не сообщая деталей. Информативная аннотация должна сохранить информационную ценность исходного сообщения. Тематически-ориентированные аннотации должны отразить информацию из текста, соответствующую теме, интересующей пользователя, так называемые аннотации по запросу (query-based summaries). Экстрактивная аннотация состоит из фрагментов (предложений) исходного текста, в то время как аннотации в форме абстракта порождаются на основе извлеченного содержания.

Несмотря на существование ряда исследований по созданию аннотаций-абстрактов, основные исследования в настоящее время сосредоточены в сфере экстрактивных аннотаций. Далее мы будем говорить только об экстрактивных аннотациях.

Большинство систем аннотирования использует предложения исходного текста в качестве единиц порождаемой аннотации. Для предложения на основе выделенных характеристик подсчитываются веса, из предложений с наибольшими весами формируются аннотации.

Характеристики, на основе которых может составляться вес предложения, могут быть следующими:

-        позиция в тексте,

-        частотность слов,

-        наличие ключевых фраз вида «Необходимо подчеркнуть»,

-        длина предложения,

-        именованные сущности,

-        повторяемость слов и др.

Современные подходы используют методы машинного обучения для учета возможных характеристик предложений, включаемых в аннотации (Li и др., 2006).

Одним из относительно новых направлений составления аннотаций является составление аннотации на основе многих документов - обзорного реферата. При составлении такого обзорного реферата необходимо решать такие задачи, как:

-        борьба с избыточностью информации,

-        идентификация важных различий между документами,

-        обеспечение тематической связности текста, что усложняется тем, что предложения могут браться из разных источников.

Обзорные рефераты могут делаться для различных наборов документов (Nenkova, Louis, 2008), например таких, как документы, описывающие конкретное событие, документы, обсуждающие одну и ту же тему, документы, обсуждающие биографию одного и того же человека, документы, обсуждающие множество событий одного и того же типа (например конкретные примеры насилия), документы, представляющие мнения разных сторон на общую тему (например мнение сената, конгресса, общественности на тему миграции).

Для определения избыточности в порождаемых аннотациях используются различные меры сходства между предложениями. Одним из распространенных подходов является предварительная кластеризация - выделение близких по содержанию кластеров предложений (Radev и др., 2000). Другим подходом к оценке избыточности является сравнение предложений-кандидатов с предложениями, уже попавшими в аннотацию, и оценка новой (непохожей) информации, например, так называемый подход Maximal Marginal Relevance (MMR) (Carbonell, Goldstein, 1998).

Обеспечение связности изложения является сложной проблемой, поскольку требует реального понимания содержания фрагментов и знаний о структуре связного текста. Многие подходы ограничиваются учетом времени и порядка предложений в тексте (фрагменты из более раннего текста размещаются с начала, в порядке следования в тексте).