| Подходы к кластеризации значений WordNet |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 04.10.2011 08:36 | |||
Проблемы представления лексической информации в WordNet:Подходы к кластеризации значений WordNetОдной из первых идей по объединению значений WordNet для компьютерных приложений было исследование, насколько явление регулярной многозначности может служить основой для такой процедуры. Работа (Buitellar, 1998) была посвящена изучению масштабов регулярной полисемии в WordNet. Для этого все многозначные существительные были расклассифицированы по их основным семантическим типам, задаваемым наиболее высоким гиперонимом, к которым они относятся, таким как артефакт, каузальный агент, форма, действие и др. Далее все такие существительные были разбиты на группы в соответствии с наборами семантических типов, в которые попадают их значения. Так, например, существительное банан, которое имеет значение пищевого продукта и растения, попадает в ту же группу, что и такие слова, как кориандр, грейпфрут и др. Всего было выделено 126 семантических типов, которые охватывают 39937 существительных в 317 регулярных классах полисемии. В работе (Peters и др., 2000) рассматриваются возможные направления кластеризации значений в WordNet, основанные на различных типах лексической многозначности. Рассматривается три возможных типа многозначности, которые могут быть использованы для кластеризации значений. Первое направление - обобщение, которое заключается в том, что если различные значения одного и того же слова имеют один и тот же гипероним, то можно попытаться найти общее между всеми этими значениями, которое и рассматривать как кластеризованное значение. Такие значения могут располагаться в сети WordNet друг под другом (одно является гиперонимом для другого) - явление, называемое автогипонимией. Также обобщение может быть сделано для значений, являющихся так называемыми «сестрами», т.е. значениями, являющимися гипонимами одного и того же гиперонима. Например, в WordNet значения слова table (table! и tabled) имеют один и тот же гипероним piece of furniture - предмет мебели: Table2 - a piece of furniture having a smooth flat top supported by one or more vertical legs "it was a sturdy table " ТаЫеЗ - a piece of furniture with tableware for a meal laid out on it: "1 reserved a table at my favourite restaurant". Наконец, еще одной возможностью формального обнаружения обобщающего значения являются так называемые синсеты-близнецы (twins) - т. е. те синсеты, в которых по крайней мере три синонима совпадают. Например, близецами являются такие синсеты, как: violate, go against, break - (fail to agree with; be in violation of; as of rules or patterns; "This sentence violates the rules of syntax") и transgress, offend, infract, violate, go against, breach, break - (act in disregard of laws, rules, contracts, or promises; "offend all laws of humanity"; "violate the basic laws or human civilization"; "break a law"; "break a promise"). Второй тип возможного кластерного значения - это кластер, основанный на метонимии. Этот тип покрывает случаи так называемой регулярной полисемии: организация - здание, дерево - древесина, материал - продукт, вместилище - содержимое вместилища и др. В данном исследовании такие пары задавались вручную. Третий тип семантической кластеризации основан на явлении диатезы -вариативности в управлении глаголов, во многих случаях различия между транзитивным (нетранзитивным), каузативным (инхоативным) использованием нужны лишь для выражения некоторых сторон предиката, в то время как базисное значение остается одним и тем же. В (Chugur и др., 2000) исследуется вопрос, какая группировка значений была бы полезной для задач информационного поиска. Предполагается, что некоторые значения могут быть кластеризованы для разных приложений, в то же время существуют примеры пар значений, кластеризация которых была бы полезна в информационно-поисковых приложениях, при этом в других приложениях было бы полезно их различать. Примером такой пары значений являются следующие синсеты: Bet 1. The act of gambling (ставить - вкладывать в банк в азартных играх) 2. The money risked on a gamble (ставка в азартных играх). Отмечается, что исследования регулярной многозначности не приводят к выделению полезных кластеров для информационно-поисковых задач, поскольку, как представляется авторам упомянутой выше работы, некоторые образцы регулярной полисемии хорошо бы не различать для задач информационного поиска, в то время как другие хорошо бы сохранить отдельно. Так, например, полезно было бы кластеризовать такие пары регулярной полисемии, как container/quantity (вместилище - объем вместилища) и music/dance (музыка - танец). Однако такие образцы, как animal/food (животное - пища), plant/food (растение - пища), animal/skin (животное - шкура), language/people (язык - народ) хорошо бы различать, поскольку, как представляется, они употребляются в разных типах текстов. Поэтому нужны дополнительные исследования критериев кластеризации значений для информационно-поисковых задач. В той же работе сравниваются два дополнительных критерия группировки значений. Первый критерий заключается в том, чтобы группировать значения, которые встречаются в одних и тех же текстах. Для этого используется семантически размеченный значениями WordNet корпус Semcor (Landes и др., 1998). Второй критерий группирует значения, которые получают одни и те же переводы в нескольких языках. Пересечение кластеров, построенных на основе этих двух критериев, составляет 55-60%, что показывает некоторую корреляцию между кластерами, но оставляет сомнения в полезности каждого из критериев. В заключении создатели работы (Chugur и др., 2000) рассматривают основные типы отношений между различными значениями, которые могут привести к полезным кластерам значений для информационного поиска. Рассматриваются следующие четыре типа отношений между значениями: - обобщение/спецификация - автогипонимия; - метонимия; - метафора; - омонимия.
Проведенный анализ типов отношений между значениями слова показал, что: - тип обобщение/спецификация образует полезный кластер для информационного поиска; -типы метафора и омонимия не приводят к полезным кластерам для информационного поиска; - отношение метонимии ведет себя двояко, что требует дополнительных исследований. В работе (Gonzalo, 2004) подчеркивается, что проведенные эксперименты по кластеризации значений привели к выводу, что типология отношений между разными значениями многозначных слов является более полезной, чем формирование кластеров значений, поскольку «прикладная» близость значений зависит от приложения. Например, указание, что одно из значений является метафорой исходного значения, является важным различием для приложений информационного поиска и вопросно-ответных систем, поскольку такие значения относятся к разным тематическим полям. Однако для приложений машинного перевода это различие может быть несущественно, поскольку метафорический перенос может быть сходным в разных языках. В работе (Fellbaum, Miller, 2006), написанной авторами тезауруса WordNet, подводится итог всем исследованиям по «прикладному» объединению значений, введению недоопределенности значений. Подчеркивается, что кластеризация значений может проводиться на основе различных взаимоисключающих критериев (семантических, синтаксических, предметно-ориентированных), что, видимо, подтверждает мысль работ (Chugur и др., 2000; Gonzalo, 2004) о разной значимости разных подразделений значений для конкретных приложений автоматической обработки текстов. По причине упомянутой позиции авторов ресурса никаких значительных изменений в структуре значений WordNet не производилось. Проблема автоматического выбора значений WordNet в практических приложениях может быть смягчена за счет использования информации из семантически размеченного по значениям WordNet корпуса текстов SemCor (Landes и др., 1998). Корпус SemCor представляет собой подмножество известного Брауновского корпуса и включает 352 текста. В 186 текстах все знаменательные слова (существительные, прилагательные, глаголы, наречия) размечены следующей информацией: часть речи, лемма (слово в словарной форме), значение по WordNet. В остальных текстах размечены только глаголы. Всего размечено около 200 тысяч слов. В последних версиях WordNet значения упорядочены по мере встречаемости в этом корпусе (первое значение соответствует самому частотному значению). В экспериментах по автоматическому разрешению многозначности слов часто используется информация о самом частотном значении слова в корпусе SemCor, которое выбирается в сложных случаях.
|