Войти



Советуем прочесть

Последние материалы

Золотые партнеры:

Гравировка, лазерная резка: шильды.

Серебряные партнеры:

Металлическая мебель изготовление и продажа. Варианты отделки металлических дверей.

Бронзовые партнеры:

Принципы разделения значений в тезаурусе РуТез
Статьи
Автор: Лукашевич Н.В.   
12.11.2011 18:32

Принципы разделения значений в тезаурусе РуТез


Спонсор статьи: Компания "Эталон" осуществляет качественное Продвижение сайта в Туле по самым разумным ценам


В основу представления значений многозначных слов набором понятий в тезаурусе РуТез используются следующие принципы:

1)      Чтобы быть отраженным в отдельном понятии, значение должно иметь независимые от контекста отличия от других значений.

2)      Эти отличия выражаются, прежде всего, в наличии специфических синонимов или отношений с другими понятиями тезауруса.

3)      В качестве синонимов часто хорошо проявляют отдельное значение многословные синонимы. Наличие разных синонимов является одним из важнейших факторов, делающих необходимым разделение значений и в практике составления традиционных толковых словарей (Апресян, 2006; Atkins, 1993).

4)      Если для значения удается найти такие отличающие его синонимы и отношения, мы предпочитаем выделять такое значение в отдельное понятие, даже если имеется относительно близкое значение того же слова. Мы полагаем, что соединение значений с разными синонимами и отношениями в одно понятие единственно ради целей облегчения разрешения многозначности приведет к проблемам на следующих этапах обработки текста, например, неточное отношение между понятиями может привести к неправильному логическому выводу.

5)      Между понятиями, соответствующими близким по смыслу значениям, должно быть установлено онтологическое отношение, которое позволяет смягчить выбор значения в сложных случаях.

Действительно, совмещение разных значений в одном понятии приводит к тому, что у одного понятия описывается несовместимый набор отношений, например родовидовых отношений. Именно на эту проблему указывал Н. Гуарино (Guarino, 1998), анализируя в онтологии MikroKosmos понятие ОКНО, которому было приписано два родовых отношения к понятиям АРТЕФАКТ и МЕСТО.

В нашей практике была попытка соединить в одном понятии два значения слова продавец. Например, в толковом словаре (БТС, 1998) выделяются два значения слова продавец:

Продавец -

1.      Работник магазина, отпускающий товар покупателю. Продавец универмага.

2.      Тот, кто продает что-то. Продавец цветов, Продавец на рынке.

Близость такого рода значений такова, что возникает желание сопоставить этим двум значениям одну понятийную единицу.

Однако продавец! имеет словосочетание-синоним продавец магазина. Кроме того, продавец 1 может рассматриваться как вид торговых работников, но продавец! не является торговым работником. Зато у продавец! могут быть такие виды, как, например, фирма-продавец, которые невозможны для продавец!. Отображение значений продавец! и продавец! как одного понятия приведет к тому, что понятие ФИРМА-ПРОДАВЕЦ окажется подвидом понятия ТОРГОВЫЙ РАБОТНИК, что приведет к проблемам в различных приложениях, использующих тезаурус.

Рассмотрим подробнее толкование обсуждаемого в (Guarino, 1998; Niren-burg, Raskin, 2004) значения слово окно и применим предлагаемый нами анализ.

В Большом толковом словаре (БТС, 1998) это значение толкуется следующим образом: отверстие в стене здания или стенке какого-л. транспортного средства для света и воздуха; застекленная рама, шкрывающая это отверстие....

Как видно, в описании одного значения совмещено рассмотрение окна как отверстия и как рамы, то есть артефакта, что имеет свою прямую аналогию в английском языке и было воспроизведено в описаниях отношений онтологии MikroKosmos. Действительно, многие языки совмещают эти два значения в одном слове. Такое же совмещение происходит и со значениями подобных слов, например слова дверь.

В то же время в языке имеются другие средства - посредством словосочетаний, четко назвать каждое из совмещенных значений, а именно, окно как отверстие называется оконный проем, дверь как отверстие называется дверной проем, окно как артефакт называется оконная рама, дверь как артефакт называется дверная плита. Совмещение значений в одном понятии делает словосочетание оконный проем синонимом словосочетания оконная рама, а дверной проем синонимом словосочетания дверная плита, затрудняется описание отношений с понятиями проемов и рам.

Таким образом, на наш взгляд, должны быть введены отдельные понятия ОКОННЫЙ ПРОЕМ, ОКОННАЯ РАМА с текстовым входом окно, а также понятия ДВЕРНОЙ ПРОЕМ, ДВЕРНАЯ ПЛИТА с текстовым входом дверь.

Для аккуратного описания одного из значений слова окно нам пришлось разбить на два понятия то, что было описано в толковом словаре как подзначения одного и того же значения. Приведем еще пример значения толкового словаря, требующего при описании в онтологии разбиения на два понятия. Для описания значения лексемы покрывало:

Покрывало -1. Кусок ткани, предназначенный для покрывания чего-либо, покрывающий что-либо //легкое одеяло, обычно служащее для покрывания постели днем

должны быть введены два понятия ПОКРЫВАЛО (ПОКРЫВАЮЩАЯ ТКАНЬ) и ПОСТЕЛЬНОЕ ПОКРЫВАЛО, как вид первого понятия, а сама лексема покрываю описывается как текстовый вход к обоим понятиям. Соответствующий фрагмент тезауруса показывает, что это два действительно отдельных понятия:

ПОКРЫВАЛО {ПОКРЫВАЮЩАЯ ТКАНЬ) (син покрывало)

ниже НАКИДКА

ниже ПОПОНА

ниже ПОСТЕЛЬНОЕ ПОКРЫВАЛО (син покрывало)

ниже ЧАДРА

Как мы видим, представление значений многозначного слова посредством совокупности понятий со специфическим набором отношений может приводить к увеличению количества значений, что частично и объясняет тот феномен, что в WordNet среднее количество значений оказалось больше, чем в толковых словарях соответствующей величины.

Мы присоединяемся к мнению авторов работ (Chugur и др., 2000; Gonzalo, 2004), что часть проблем по выбору близких значений многозначных слов может быть снята, если некоторым образом установить отношение между этими значениями. Вопрос заключается в том, какого рода отношения между значениями могут быть описаны в онтологии для автоматической обработки текстов и как их использовать в случаях неопределенности при выборе значения. Эти вопросы будут рассмотрены в следующем разделе.