| Подходы к разрешению лексической многозначности на основе тезаурусных знаний |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 22.10.2011 18:25 | |||
Подходы к разрешению лексической многозначности на основе тезаурусных знанийРазличные алгоритмы разрешения лексической многозначности на основе тезаурусной структуры предлагались и тестировались для тезауруса английского языка WordNet. Одним из классов предлагаемых методов является оценка семантической близости контекста вхождения того или иного многозначного термина к каждому из возможных значений - синсетов. Такая оценка близости может рассчитываться на основе сравнения путей между синсетами слов контекста и синсетами рассматриваемого многозначного слова. В работе (Leacock, Chodorow, 1998) предполагается, что два значения тем семантически ближе, чем короче связывающий их путь. Упор делается на отношения гипонимии-гиперонимии, и взвешивается длина пути относительно всей глубины таксономии (D): Sim LC (Cl, С2) = - log (PathLen(Cl,C2)/2D). (10.1) В работе (Hirst, St-Onge, 1998) предполагается, что два синсета семантически близки, если соединены достаточно коротким путем, который имеет малое количество перегибов: SimHs(Cl,C2) = Co-PathLen- k * d, (10.2) где d - количество перегибов на протяжении пути; с() и к - константы. Если такого пути не существует, то Sim HS(C1, С2) = 0. В экспериментах использовались значения констант с0= 8, к = I, максимальная длина пути 5 шагов. В ряде работ концептуальное расстояние между синсетами учитывает большее число параметров. Так, для подсчета концептуального расстояния в работе (Agirre, 1995; Agirre, 1996) вводится понятие концептуальной плотности и формула ее вычисления, которая, по мнению авторов, наилучшим способом описывает близость между словами. В формуле учитываются следующие параметры: - длина самого короткого пути в иерархии; - глубина в иерархии; - плотность понятий в иерархии; - число концептов. Другим направлением выбора значения многозначного слова на основе близости контекста в тексте и окружения слов в тезаурусе являются подходы, основанные на оценке так называемого информационного содержания. Ф. Резник (Resnik, 1995) вводит характеристику «информационное содержание» (information content), которая определяется как величина вероятности встретить пример понятия С в большой текстовой коллекции Р(С). Эта вероятностная функция обладает следующим свойством: если С1 вид для С2, то Р(С1) < Р(С2). Значение вероятности для самой верхней вершины иерархии равно 1. Следуя обычной аргументации теории информации, информационное содержание понятия С мы можем представить как отрицательный логарифм этой вероятности: 1С (С) =-log(P(C)). (10.3) Чем более абстрактным является понятие, тем меньше величина его информационного содержания. Для решения задачи разрешения лексической многозначности вводится понятие наименьшего общего вышестоящего (LCS = Least Common Subsumer). Алгоритм базируется на идее, что нужно выбирать такое значение многозначного слова, наименьшее общее вышестоящее которого наиболее информативно:
SirriRZ (С1,С2) = IC(LCS(C1,C2)).
(10.4)
Авторы работы (Jiang, Conrath, 1997) развивают формулу (10.7) следующим образом: Sim к (С1,С2) = 2*IC(LCS(C1,C2))- (IC(C1) + 1С(С2)), (10.5) т. е. учитывается не только коэффициент информационного содержания пересечения путей от синсетов, но и исходное местоположение самих исходных синсетов. Подчеркнем, что для вычисления информационного содержания, а значит, и применения описанных выше подходов необходимо иметь семантически размеченный корпус, т. е. коллекцию текстов, в которой вручную экспертами проставлены правильные значения многозначных слов. В работе (Patwardhan и др., 2002) описывается тестирование ряда предложенных на базе WordNet метрик на материалах конференции Senseval-2. Для 1723 многозначных существительных коллекции метрики применялись в контексте длиной одно слово. Например, для выражения Plant with flowers по этим мерам вычислялось сходство существительных plant и flower. Лучший результат был получен для метрики, предложенной в работе (Jiang, Conrath, 1997), и составил 39% точности. В работе (Vossen и др., 2006) предлагается алгоритм разрешения лексической многозначности на основе разметки предметных областей Wordnet (Magnini, Cavaglia, 2000), при которой большинство синсетов тезауруса Wordnet отнесены к той или иной предметной области, а если подходящей предметной области нет, то к специальной области Factotum (см. статью «Теннисная проблема» в WordNet»). Выбор значения многозначного слова основывается на проверке соответствия предметных областей этих значений и слов в локальном контексте (4 именные группы слева и 5 именных групп справа) и во всем тексте. Приводятся данные, что с помощью такой системы разрешения многозначности удалось сократить количество значений на 57-65%. При этом подчеркивается, что большинство сокращений относится к словам из области Factotum («Теннисная проблема» в WordNet»), т. е. к словам, не относящимся к конкретным предметным областям, например быть, начинаться, человек. Подход к разрешению многозначности на основе содержания целого текста тестируется в работе (Galley, McKeown, 2003). На первом этапе в предложенном методе происходит сопоставление с текстом, и в специальную структуру, называемую disambiguation graph, записываются все встретившиеся значения. Устанавливаются связи между узлами: гипонимы (видовые понятия), гиперонимы (родовые понятия) и понятия, имеющие с данным понятием одно и то же родовое понятие, так называемые сестры. На втором этапе происходит разрешение многозначности в предположении «одно значение на текст». Для каждого значения подсчитывается его вес, который представляется как функция, зависящая от типа отношения и от расстояния в тексте между анализируемым вхождением и близким по смыслу значением в тексте. Так, например, синонимы, родовые и видовые значения добавляют вес к соответствующему значению, независимо от своего местоположения в тексте. Выбирается значение, получившее максимальный вес Зависимость коэффициента добавления веса от расстояния отражена в следующей таблице:
Авторы работы (Mihalcea и др., 2004) используют алгоритм PageRank для разрешения многозначности на основе WordNet и целого текста как контекста. В этом алгоритме сначала для каждого значимого слова текста отмечаются все синсеты, в которые входит это слово. Такие синсеты становятся вершинами графа, а ребрами графа являются отношения, полученные на основе отношений, описанных в WordNet, включая: -традиционные отношения между синсетами: гипонимия, гиперонимия, меронимия и т. п.; - отношение номинализации, появившееся в WordNet 2.0, которое устанавливается между глаголом и существительным, являющимися дериватами; - так называемые координатные отношения - отношения между видовыми синсетами, являющимися подвидами одного и того же родового синсета. Выбирается значение, получившее максимальный PageRank. Точность разрешения многозначности данного алгоритма для задачи «все слова текста» на тестовом материале Senseval-З - 50.89%, с учетом наиболее частотного значения - 63.27%. Tags: Подходы к разрешению лексической многозначности на основе тезаурусных знаний Автоматическое разрешение многозначности
|
Если выбрать значение на основе полученных весов не удалось, то выбирается первое по порядку значение WordNet, которое является наиболее частотным в коллекции SemCor, семантически размеченной по значениям WordNet. Точность разрешения многозначности на основе данного алгоритма на 35000 существительных 74 текстов корпуса Semcor оценивается как 62.09%.