| Единицы тезауруса – понятия и их текстовые входы |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 08.11.2011 18:04 | |||
Единицы тезауруса – понятия и их текстовые входыТезаурус РуТез является лингвистической онтологией, т. е. подавляющее большинство понятий в РуТез связаны со значениями реально существующих языковых выражений. В то же время, поскольку тезаурус РуТез является онтологией, единицы тезауруса должны отвечать правилам представления понятий в онтологиях. Как мы уже указывали в статье «Понятия как единицы мышления и понятия в онтологиях», важными принципами представления понятий в онтологии являются следующие: - необходимо различать понятие и его имя, разные названия одной и той же сущности не должны приводить к введению отдельных понятий, - нижестоящие понятия должны четко отличаться от вышестоящих понятий, то есть, например, иметь специфическое отношение или атрибут, - каждое понятие должно четко отличаться от понятий того же уровня иерархии (понятий-сестер). Эти рекомендации введения понятий онтологии реализовать непросто, если онтология основывается на значениях реально существующих языковых выражений. Имеется несколько источников таких трудностей. Во-первых, в некоторых случаях может быть сложно различить понятие и его имена. Как мы видели, в ресурсах типа WordNet отдельные синсеты вводятся для разных частей речи, которые являются деривативами, т. е. называют одну и ту же сущность или явление посредством разных частеречных единиц. Также отдельные единицы в ресурсах типа WordNet часто вводятся, чтобы отразить стилистические, географические или диалектные особенности употребления слов. Во-вторых, сложной задачей является представление близких значений многозначных слов в виде совокупности отличимых понятий. Часто в таких случаях возникает вопрос, что правильнее с точки зрения как качества описания, так и с точки зрения приложений автоматической обработки текстов: представить такие близкие значения как отдельные, возможно, связанные между собой понятия, или соединить близкие значения в одно и то же понятие. В-третьих, непростой проблемой является описание близких значений разных слов. Такие слова могут различаться посредством множества разных характеристик, особенностей употребления. Разбиение такой совокупности взаимосвязанных значений на совокупность дискретных понятий, каждое из которых должно быть отличимо от других близких понятий, является достаточно сложной процедурой. Но именно такие понятия (несмотря на то, что они мотивированы значениями языковых единиц конкретного языка) приобретают некоторые свойства независимости от конкретного языка: если понятие отличимо от близких понятий, то особенности данного понятия тем или иным образом могут быть сформулированы на разных языках (Nirenburg, Raskin, 2004). Наконец, возникает непростой вопрос, в каких случаях необходимо или полезно вводить в онтологию понятия, основанные на значениях словосочетаний. Поскольку словосочетаний в языке может быть очень много, то важным является вопрос, посредством каких принципов должно регулироваться введение в тезаурус понятий, отражающих значения словосочетаний. В следующих разделах мы подробно рассмотрим решения, принимаемые по всем этим вопросам при разработке тезауруса РуТез.
|