Войти



Последние материалы

Золотые партнеры:

работа в Артеме: http://rabota.prim.slando.ru/artem/.

Серебряные партнеры:

Ремонт полов - бетонные полы.

Бронзовые партнеры:

Смешение понятия и его имени в Принстонском WordNet и других ворднетах
Статьи
Автор: Лукашевич Н.В.   
06.10.2011 15:58

Смешение понятия и его имени в Принстонском WordNet и других ворднетах

Проблемы со слишком большим количеством значений в Принстонском WordNet были рассмотрены в разд. 2.5. В данном разделе будет рассмотрена проблема описания близких по смыслу слов в Принстонском WordNet и других ворднетах.

Первоначально авторы WordNet считали, что WordNet - это лексический, а не онтологический ресурс. Однако со временем рост значимости онтологических исследований, а также сходство иерархии существительных из WordNet с онтологией стали очевидными (Miller, Hristea, 2006). Поэтому на основе WordNet правомерно рассматривать проблемы, возникающие при создании лингвистических онтологии.

В WordNet можно найти многочисленные примеры смешения понятия и его названия. Это связано с тем, что основным отношением в WordNet является отношение синонимии. Наборы синонимов - синсеты - являются основными структурными элементами WordNet. Авторы WordNet считали два выражения синонимичными, если замена одного из них на другое в предложении не меняет значения истинности этого высказывания.

Этот основной принцип устройства WordNet приводит к тому, что не вы-полняется один из важнейших принципов разработки онтологии -различение собственно понятия и способов его называния, т. е. вводятся разные синсеты для разных способов наименования одной и той же сущности.

Имеется несколько типов смешений понятий и их названий в ресурсах типа WordNet.

Во-первых, смешение понятий и их названий проявляется в поддержке разных иерархий для разных частей речи. Действительно, посредством какой бы части речи в тексте ни было упомянуто понятие ПРИВАТИЗАЦИЯ {приватизировать, приватизационный, приватизация) - это всегда ссылка на одно и то же понятие разными лексическими средствами, от изменения части речи не должны меняться отношения этого понятия с другими понятиями.

Кроме того, различие в описаниях отношений разных частей речи, имеющих между собой прямое смысловое соответствие, увеличивает долю непоследовательно выполненных описаний. Например, в синеете WordNet

engagement, participation, involvement, involution - (the act of sharing in the activities of a group; "the teacher tried to increase his students' engagement in class activities ")

как синонимы указываются существительные engagement и participation. А в соответствующем глагольном синеете глагол participate упоминается только в толковании:

prosecute, engage, pursue - (carry out or participate in an activity; be involved in; "She pursued many activities"; "They engaged in a discussion'").

Если части речи конкретных слов существенны для проводимой обработки текстов, они могут быть извлечены из морфологического словаря или конкретные текстовые входы, сопоставленные понятию, могут иметь соответствующие пометы частей речи и (или) морфологических классов.

Авторы проекта EuroWordNet рассматривали возможность соединения всех частей речи - дериватов к одному синсету, поскольку такое разделение противоречит принципам разработки онтологических ресурсов (Climent и др., 1996). Однако, в конце концов, решение о соединении частей речи принято не было.

Вторым типом проявления смешения понятия и его названия является использование разных синсетов для описания старых и новых названий, названий понятия в разных диалектах языка, в разных текстовых жанрах и т. п. В Принстонском WordNet можно найти многочисленные примеры того, что особенность употребления слов приводит к введению нового синсета.

Например, для отражения способов разговорного упоминания человеческого носа заведен специальный синеет

beak, honker, hooter, nozzle, snoot, snout, schnozzle, schnoz - (informal terms for the nose -разговорные варианты слова «нос»),

который является гипонимом синсета для слова нос

nose, olfactory organ - (the organ of smell and entrance to the respiratory tract; the prominent part of the face of man or other mammals; "he has a cold in the nose,r).

Разговорная лексика, имеющая отношение к деньгам, также собрана в отдельный синеет:

hoodie, bread, cabbage, clams, dinero, dough, gelt, kale, lettuce, lolly, lucre, loot, moolah, pelf scratch, shekels, simoleons, sugar, wampum - (informal terms for money).

Некоторые синсеты отражают специфику диалектов английского языка, пример - название домашнего осла в британском английском:

Make 1 - (British informal)

=> domestic ass, donkey, Equus asinus - (domestic beast of burden descended from the African wild ass; patient but stubborn).

Разработчики русского ворднета RusNet специально рассматривают вопросы синонимии и ее описания в синсетах. Они разделяют синонимию на пять подвидов: абсолютную, дупликатную, стилистическую, экспрессивную и деривационную (дом: домик, домина). Такие виды синонимов, как стилистические и экспрессивные синонимы, описываются в том же синеете, что и нейтральные слова, но снабжаются дополнительными пометами. Для деривационной синонимии предлагается заводить отдельные синсеты и особые виды отношений: деривационный гипоним и деривационный гипероним. Авторы ресурса считают, что появление словообразовательной компоненты не позволяет считать такие единицы, как домик и домина, просто экспрессивными синонимами и отражать их в едином синонимическом ряду.

Однако с точки зрения разработки онтологии такое понятие, как деривационный синеет, не имеет четких признаков отличия от своего вышестоящего понятия, поскольку дом любой величины в разных контекстах может быть назван домиком или доминой.

Еще одним проявлением различий синсетов и понятий как единиц представления является описание денежных единиц, используемых в различных странах под одними и теми же названиями, например франк или сантим. С точки зрения языка, могут быть введены соответствующие синсеты, как в WordNet:

franc - {the basic monetary unit in many countries; equal to 100 centimes)

centime - (a fractional monetary unit of several countries: France and Algeria and Belgium and Burkina Faso and Burundi and Cameroon and Chad and the Congo and Gabon and Haiti and the Ivory Coast and Luxembourg and Mali and Morocco and Niger and Rwanda and Senegal and Switzerland and Togo).

Однако с точки зрения представления на понятийном уровне такие единицы невозможны:

-        все эти франки и сантимы имеют разную ценность, соответствие между собой;

-        общее между ними только название;

-        в любой момент соответствующее государство может ввести другое название своих единиц, не меняя их относительной стоимости.

Таким образом, если мы считаем своей единицей представления понятие, то должна быть введена отдельная понятийная единица для денежной единицы каждой страны, например швейцарский франк, американский доллар, канадский доллар и т. п.