Войти



Последние материалы

Золотые партнеры:

Серебряные партнеры:

Бронзовые партнеры:

Метод глобального подтверждения
Статьи
Автор: Administrator   
20.12.2011 17:37

Качественное и быстрое Создание сайта в Туле от компании Эталон - это правильное вложение средств.


Метод глобального подтверждения

Метод глобального подтверждения заключается в том, что все понятия, вхождения которых обнаружены в тексте, могут оказывать влияние на выбор значения многозначного языкового выражения. Рассмотрение глобального контекста учитывает такое свойство связного текста, как лексическая связность, т. е. повторяемость одних и тех же лексических единиц и совокупностей семантически близких лексических единиц в связном тексте (Лукашевич, 1996; Лукашевич, Добров, 2007).

Для каждого варианта многозначного выражения собираются те понятия текста, которые поддерживают этот вариант. «Поддержка» текста проявляется двумя способами:

-        в тексте встречается однозначный вариант помеченного понятия, например, упоминание в тексте словосочетания расследование преступлений поддерживает именно это значение у многозначного слова следствие.

-        в тексте встречается понятие из тезаурусной окрестности неоднозначного термина, например, упоминается понятие ОБЩЕСТВЕННАЯ ДЕЯТЕЛЬНОСТЬ из тезаурусной окрестности неоднозначного термина партия.

Далее производится выбор варианта понятия для многозначного термина. Как указывалось в разд. 16.4, многозначность в тезаурусе РуТез может быть задана двумя способами: с помощью пометы и с помощью отнесения текстового выражения к разным понятиям тезауруса. Процедура автоматического выбора значения в этих случаях несколько различается:

Неоднозначность задана с помощью пометы. Если текст поддерживает описанное в тезаурусе значение неоднозначного термина, то соответствующее понятие включается в понятийный индекс как однозначное. В противном случае, неоднозначный термин исключается из понятийного индекса.

Неоднозначность проявляется в соответствии одного текстового выражения нескольким понятиям. Сначала проверяется, какие из вариантов термина поддерживаются понятиями всего текста, и оставляются только поддержанные варианты. Если ни один из вариантов не поддерживается, то все они удаляются из понятийного индекса.

 

После удаления неподдержанных вариантов может остаться только один вариант, и, таким образом, неоднозначность разрешена. Если же поддержано более одного варианта, то производится выбор значения именно для конкретного вхождения неоднозначного термина: выбирается тот вариант, для которого «поддерживающее» понятие находится ближе всего по тексту. Расстояние измеряется в количестве выявленных понятий между текущим вхождением неоднозначного термина и поддерживающим понятием. Далее этот метод разрешения многозначности мы будем называть Glob.

Данный алгоритм очень прост, однако при его использовании возникают некоторые проблемы.

Во-первых, в этом методе для учета концептуальной близости используются только пути, состоящие из иерархических отношений одной направленности, т. е. без перегибов; таким образом, семантически близкими считались только понятия, находящиеся в иерархических отношениях между собой. Это приводило к явным проблемам на относительно коротких текстах, таких как новостные сообщения, когда необходимые для подтверждения иерархически расположенные понятия не входили в состав анализируемого текста.

Во-вторых, нет ограничений на длину пути между понятиями, что приводило, например, к тому, что многозначность очень конкретного понятия могла быть разрешена на основе нахождения в тексте очень абстрактного понятия.

В-третьих, не вычислялась весовая оценка семантической близости между понятиями на основе путей между ними или каких-либо других: подтверждение производилось на основе принципа «да-нет».

В-четвертых, приоритет отдавался глобальному контексту, т. е. сначала проверялось, есть ли подтверждение для того или иного значения по всему тексту. Если несколько значений имели подтверждение в глобальном контексте, то проверялся локальный контекст: выбиралось то значение, подтверждение для которого находилось ближе всего к исследуемому многозначному вхождению.

Поэтому был предложен другой алгоритм разрешения многозначности, который должен более аккуратно учитывать разные характеристики путей между понятиями тезауруса.