Войти



Последние материалы

Золотые партнеры:

Переводчики по всему миру: удаленный переводчик английского. Удалённый переводчик.

Серебряные партнеры:

Отели Корфу - отдых корфу. Греция: отзывы путешественников. . отсрочка от призыва

Бронзовые партнеры:

Подходы к разрешению лексической многозначности на основе тезаурусных знаний
Статьи
Автор: Лукашевич Н.В.   
22.10.2011 18:25

Подходы к разрешению лексической многозначности на основе тезаурусных знаний

Различные алгоритмы разрешения лексической многозначности на основе тезаурусной структуры предлагались и тестировались для тезауруса английского языка WordNet.

Одним из классов предлагаемых методов является оценка семантической близости контекста вхождения того или иного многозначного термина к каждому из возможных значений - синсетов. Такая оценка близости может рассчитываться на основе сравнения путей между синсетами слов контекста и синсетами рассматриваемого многозначного слова.

В работе (Leacock, Chodorow, 1998) предполагается, что два значения тем семантически ближе, чем короче связывающий их путь. Упор делается на отношения гипонимии-гиперонимии, и взвешивается длина пути относительно всей глубины таксономии (D):

Sim LC (Cl, С2) = - log (PathLen(Cl,C2)/2D).    (10.1)

В работе (Hirst, St-Onge, 1998) предполагается, что два синсета семантически близки, если соединены достаточно коротким путем, который имеет малое количество перегибов:

SimHs(Cl,C2) = Co-PathLen- k * d,          (10.2)

где d - количество перегибов на протяжении пути; с() и к - константы. Если такого пути не существует, то Sim HS(C1, С2) = 0. В экспериментах использовались значения констант с0= 8, к = I, максимальная длина пути 5 шагов.

В ряде работ концептуальное расстояние между синсетами учитывает большее число параметров. Так, для подсчета концептуального расстояния в работе (Agirre, 1995; Agirre, 1996) вводится понятие концептуальной плотности и формула ее вычисления, которая, по мнению авторов, наилучшим способом описывает близость между словами. В формуле учитываются следующие параметры:

-        длина самого короткого пути в иерархии;

-        глубина в иерархии;

-        плотность понятий в иерархии;

-        число концептов.

Другим направлением выбора значения многозначного слова на основе близости контекста в тексте и окружения слов в тезаурусе являются подходы, основанные на оценке так называемого информационного содержания.

Ф. Резник (Resnik, 1995) вводит характеристику «информационное содержание» (information content), которая определяется как величина вероятности встретить пример понятия С в большой текстовой коллекции Р(С). Эта вероятностная функция обладает следующим свойством: если С1 вид для С2, то Р(С1) < Р(С2). Значение вероятности для самой верхней вершины иерархии равно 1. Следуя обычной аргументации теории информации, информационное содержание понятия С мы можем представить как отрицательный логарифм этой вероятности:

1С (С) =-log(P(C)).       (10.3)

Чем более абстрактным является понятие, тем меньше величина его информационного содержания.

Для решения задачи разрешения лексической многозначности вводится понятие наименьшего общего вышестоящего (LCS = Least Common Subsumer). Алгоритм базируется на идее, что нужно выбирать такое значение многозначного слова, наименьшее общее вышестоящее которого наиболее информативно:

 

SirriRZ (С1,С2) =   IC(LCS(C1,C2)).

 

(10.4)

 

Авторы работы (Jiang, Conrath, 1997) развивают формулу (10.7) следующим образом:

Sim к  (С1,С2) =   2*IC(LCS(C1,C2))-    (IC(C1) + 1С(С2)),     (10.5)

т. е. учитывается не только коэффициент информационного содержания пересечения путей от синсетов, но и исходное местоположение самих исходных синсетов.

Подчеркнем, что для вычисления информационного содержания, а значит, и применения описанных выше подходов необходимо иметь семантически размеченный корпус, т. е. коллекцию текстов, в которой вручную экспертами проставлены правильные значения многозначных слов.

В работе (Patwardhan и др., 2002) описывается тестирование ряда предложенных на базе WordNet метрик на материалах конференции Senseval-2. Для 1723 многозначных существительных коллекции метрики применялись в контексте длиной одно слово. Например, для выражения Plant with flowers по этим мерам вычислялось сходство существительных plant и flower. Лучший результат был получен для метрики, предложенной в работе (Jiang, Conrath, 1997), и составил 39% точности.

В работе (Vossen и др., 2006) предлагается алгоритм разрешения лексической многозначности на основе разметки предметных областей Wordnet (Magnini, Cavaglia, 2000), при которой большинство синсетов тезауруса Wordnet отнесены к той или иной предметной области, а если подходящей предметной области нет, то к специальной области Factotum (см. статью «Теннисная проблема» в WordNet»).

Выбор значения многозначного слова основывается на проверке соответствия предметных областей этих значений и слов в локальном контексте (4 именные группы слева и 5 именных групп справа) и во всем тексте. Приводятся данные, что с помощью такой системы разрешения многозначности удалось сократить количество значений на 57-65%. При этом подчеркивается, что большинство сокращений относится к словам из области Factotum («Теннисная проблема» в WordNet»), т. е. к словам, не относящимся к конкретным предметным областям, например быть, начинаться, человек.

Подход к разрешению многозначности на основе содержания целого текста тестируется в работе (Galley, McKeown, 2003).

На первом этапе в предложенном методе происходит сопоставление с текстом, и в специальную структуру, называемую disambiguation graph, записываются все встретившиеся значения. Устанавливаются связи между узлами: гипонимы (видовые понятия), гиперонимы (родовые понятия) и понятия, имеющие с данным понятием одно и то же родовое понятие, так называемые сестры.

На втором этапе происходит разрешение многозначности в предположении «одно значение на текст». Для каждого значения подсчитывается его вес, который представляется как функция, зависящая от типа отношения и от расстояния в тексте между анализируемым вхождением и близким по смыслу значением в тексте. Так, например, синонимы, родовые и видовые значения добавляют вес к соответствующему значению, независимо от своего местоположения в тексте. Выбирается значение, получившее максимальный вес Зависимость коэффициента добавления веса от расстояния отражена в следующей таблице:

Если выбрать значение на основе полученных весов не удалось, то выбирается первое по порядку значение WordNet, которое является наиболее частотным в коллекции SemCor, семантически размеченной по значениям WordNet. Точность разрешения многозначности на основе данного алгоритма на 35000 существительных 74 текстов корпуса Semcor оценивается как 62.09%.

Авторы работы (Mihalcea и др., 2004) используют алгоритм PageRank для разрешения многозначности на основе WordNet и целого текста как контекста. В этом алгоритме сначала для каждого значимого слова текста отмечаются все синсеты, в которые входит это слово. Такие синсеты становятся вершинами графа, а ребрами графа являются отношения, полученные на основе отношений, описанных в WordNet, включая:

-традиционные отношения между синсетами: гипонимия, гиперонимия, меронимия и т. п.;

-        отношение номинализации, появившееся в WordNet 2.0, которое устанавливается между глаголом и существительным, являющимися дериватами;

-        так называемые координатные отношения - отношения между видовыми синсетами, являющимися подвидами одного и того же родового синсета.

Выбирается значение, получившее максимальный PageRank.

Точность разрешения многозначности данного алгоритма для задачи «все

слова текста» на тестовом материале Senseval-З - 50.89%, с учетом наиболее частотного значения - 63.27%.