Войти



Советуем прочесть

Последние материалы

Золотые партнеры:

радиатор Эсперо

Серебряные партнеры:

Проводится регистрация ооо - всего за несколько дней

Бронзовые партнеры:

Краткий итог опубликованных статей о понятиях (как единицах тезауруса ) и их текстовых входах
Статьи
Автор: Лукашевич Н.В.   
12.11.2011 20:21

Краткий итог опубликованных статей о понятиях (как единицах тезауруса ) и их текстовых входах

Развивая тезаурус РуТез как лингвистическую онтологию, мы пытаемся следовать двум, вообще говоря, противоречивым критериям.

С одной стороны, мы формируем понятия тезауруса максимально близко к значениям языковых выражений, поскольку считаем, что чрезмерное обобщение, кластеризация значений ведет к искажению системы отношений, проблемам в приложениях автоматической обработки текстов.

С другой стороны, мы стараемся, чтобы понятие тезауруса было действительно понятием, т. е. было отличимо от близких по смыслу понятий.

Во многих случаях использование реально существующих многословных выражений позволяет нам смягчить эти противоречивые требования. Введение понятия на базе значения многословного выражения не меняет суть лингвистической онтологии, но во многих случаях позволяет ввести более отчетливо отделимые понятия.

Использование в качестве единиц тезауруса таких отличимых понятий позволяет единым образом представлять лексические значения литературного языка и значения терминов предметной области, более последовательно описывать систему отношений между понятиями и тем самым облегчает формальный вывод на отношениях.

Для понятия онтологии, которое четко отделимо от других близких понятий, значительно легче найти эквивалентные названия на языках, отличных от исходного языка лингвистической онтологии. Таким образом, хорошо отличимые понятия делают лингвистическую онтологию более языково-независимой. В то же время учет переводных эквивалентов в других языках позволяет лучше увидеть недостаточную отделимость понятий лингвистической онтологии.

Онтологические синонимы, т. е. текстовые выражения, сопоставленные одному и тому же понятию, не всегда являются синонимами в том смысле, что не всегда возможны замены в предложении одного онтологического синонима на другой, сохраняющие грамматическую правильность и логическую истинность предложения. Однако онтологические синонимы понятия должны быть эквивалентны относительно отношений этого понятия с другими понятиями тезауруса. Как показала практика, нарушение этого принципа, неаккуратное объединение языковых выражений в рамках ряда онтологических синонимов рано или поздно проявляет себя в ошибках при автоматической обработке текстов, рано или поздно находится приложение, для которого неучтенное различие языковых выражений оказывается существенным.

Ряды онтологических синонимов формируются с максимальной степенью подробности. Эквивалентность некоторых типов словосочетаний может показаться человеку очевидной, однако практически нет правил, которые работают со стопроцентной точностью. Некоторые словосочетания, полученные в результате «очевидных» трансформаций, почему-то в реальности не употребляются, другие употребляются совсем в другом смысле, чем исходное словосочетание.

Онтологические синонимы демонстрируют огромное разнообразие лексикосинтаксических схем. Особенно интересными оказались однозначные словосочетания, которые достаточно часто употребляются как синонимы однозначных многозначных слов. Эти словосочетания выглядят иногда тавтологичными, однако польза их в том, что в случае необходимости они позволяют называть сущности совершенно однозначно.