| Выделение разных понятий для отражения близких значений одного и того же слова в онтологиях |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 06.10.2011 15:53 | |||
Выделение разных понятий для отражения близких значений одного и того же слова в онтологияхСложным случаем при разработке лингвистических онтологии является наличие у слова нескольких близких по смыслу значений. Поскольку общеизвестно, насколько тяжело системе автоматической обработки текстов бывает разобраться с близкими значениями слова, то также важно выработать принципы для описания таких совокупностей близких значений отдельного слова. Как мы видели в ранее, при применении WordNet были выявлены серьезные проблемы приложений в связи со слишком большим количеством описанных значений, после чего разработчиками было проведено значительное количество экспериментов с целью кластеризации значений, выявлению групп близких значений, позволяющих улучшать качество применения WordNet в автоматической обработке текстов. Однако было предложено слишком много разных принципов группировки значений, и непонятно, какие принципы нужно предпочесть (Fellbaum, 2002). В проекте OntoNotes (Hovy и др., 2006) предлагается способ отражения набора лексических значений многозначного слова совокупностью понятий на основе рассмотрения конкретных примеров употребления из корпуса. Сопоставляя примеры употребления и системы значений слова, нужно разделять значения на наиболее далекие друг от друга группы, создавать точку ветвления на дереве, затем для каждой такой точки повторять процесс. Рассматривая глагол drive, для которого WordNet выделяет 22 отдельных значения, авторы проекта предлагают формировать наиболее очевидные группы значений, которые для глагола drive таковы (которые и являются предлагаемыми понятиями): 1) drive mad - Cause-mental-instability - привести в бешенство; 2) группы смыслов физического движения - Cause-movement-in-Desired-Direction, (Вести или путешествовать на транспортном средстве); 3) группа смыслов нефизического характера - Cause-State-Change-toward-Desired-Value (Изменение-состояния-к-желаемой-величине). Далее можно продолжать онтологизацию значений слова в зависимости от объяснительной необходимости или потребности приложения. Каждый шаг онтологизации требует введения нового понятий в растущую онтологию. В результате нескольких шагов два независимых эксперта выделили 7 наиболее важных групп смыслов глагола drive. По мнению авторов работы (Hovy и др., 2006), хорошим принципом для остановки процесса онтологизации является ситуация, когда не находится очевидного разбиения оставшейся группы смыслов на подгруппы или возможны одинаково обоснованные разбиения на подгруппы по разным основаниям. Также подчеркивается полезность многоязычного рассмотрения для наиболее адекватного разделения «пространства смыслов» и «пространства понятий». В работе приводятся примеры объединения значений глагола drive. К значению Cause-Movement-in-Desired-Direction («Вести или путешествовать на транспортном средстве») относятся 7 значений из WordNet: WN1: Can you drive a truck (водить)? WN2: drive to school (ехать), WN3: drive her to school (везти), WN12: this truck drives well (едет), WN13: He drives taxi (водит), WN14: The car drove around the corner (повернул), WN16: Drive the turnpike to work. Отметим, что с точки зрения носителя русского языка эта «транспортная» группа значений глагола drive не так очевидна, поскольку соответствует значениям нескольких разных слов: водить, ехать, везти, повернуть, и, значит, зависимость системы понятий от исходного языка разработки сохраняется в серьезной степени. В противовес тенденции ряда исследований к сокращению числа значений языковых единиц, представленных в лингвистических онтологиях, высказываются мнения о вреде чрезмерной кластеризации разных значений даже в благих целях облегчения автоматической обработки текстов. Так, Н. Гуарино (1998) критикует несколько существующих онтологии за многозначность онтологических узлов, например за трактовку понятия ОКНО одновременно и как артефакта, и как отверстия. Проблема возникает из-за того, что слово окно в различных контекстах может обозначать =изделие= (как во фразе «разбить окно») или =отверстие= (как во фразе «выглянуть в окно»), и разработчики лингвистических онтологии стремились описать оба типа употреблений посредством одного понятия онтологии. Эта критика связана с тем, что, по мнению Н. Гуарино, многозначность в онтологических узлах не должна быть разрешена ни в какой форме. Чтобы соответствовать принципу отсутствия многозначности узлов, онтология должна иметь различные узлы в различных местах онтологии для таких понятий, как ОКНО-ИЗДЕЛИЕ и ОКНО-ОТВЕРСТИЕ, при этом эти сущности ОКНО-ОТВЕРСТИЕ и ОКНО-ИЗДЕЛИЕ, очень тесно связаны между собой. Мы продолжим обсуждение этой проблемы далее, где приведем возражения авторов критикуемой онтологии. Как видно, проблема близких значений многословных слов, которая сложна и для составителей толковых словарей, многократно усложняется при представлении таких значений в словарном ресурсе, предназначенном для автоматической обработки текстов. Tags: Выделение разных понятий для отражения близких значений одного и того же слова Единицы онтологии: понятия
|