Войти



Последние материалы

Золотые партнеры:

Противоугонные системы magnum. Противоугонные системы автомобиля Ниссан.

Серебряные партнеры:

Бронзовые партнеры:

Единицы информационно-поисковых тезаурусов
Статьи
Автор: Лукашевич Н.В.   
10.09.2011 16:45

Единицы информационно-поисковых тезаурусов.

Основными единицами тезаурусов являются термины предметной области.

Большинство версий стандартов по информационно-поисковым тезауру­сам указывают на связь терминов с понятиями предметной области. Амери­канский стандарт указывает, что термин является одним или большим чис­лом слов, обозначающих понятие. Стандарт ISO-2788 подчеркивает, что ин­дексирующий термин - это представление понятия, обычно в фор­ме существительного или именной группы.

В этом случае понятие рассматривается в качестве единицы мысли, формируемой мысленно для отражения всех или некоторых свойств конкретного или абст­рактного, реально существующего или мысленного объекта. Понятия суще­ствуют как абстрактные сущности, независимо от терминов, которые их вы­ражают.

Российский ГОСТ рассматривает понятие как форму мышления, отражаю­щую существенные свойства, связи и отношения предметов и явлений, а тер­мином в определении ГОСТа является слово или словосочетание, являющееся точным обозначением определенного понятия какой-либо области знания.

При этом, определяя единицы тезауруса, ГОСТ 7.74-96 не опирается на определение термина, а определяет единицы тезауруса как лексические еди­ницы информационно-поискового языка - то есть обозначения отдельного понятия, принятые в информационно-поисковом языке и неделимые в этой функции.

Следует отметить, что не все разработчики тезаурусов четко разделяли понятия и термины. Так, разработчики тезауруса AGROVOC характеризуют его как термино-ориентированный (term-oriented), что находит свое проявление в том, что к термину невозможно добавить синонимы. Эта особенность тезауруса рассматривается авторами как недостаток, который необходимо исправить (Soergel и др., 2004).

Таким образом, разработчики тезаурусов предполагают, что понятие предметной области обычно имеет несколько возможных вариантов лексического представления в тексте, которые рассматриваются как синонимы. Среди таких синонимов выбирается дескриптор - термин, который рассматривается как основной способ ссылки на понятие в рамках тезауруса. Другие термины из синонимического ряда, включенные в тезаурус, называются аскрипторы или недескрипторы. Они используются как вспомогательные элементы, текстовые входы, помогающие найти подходящие дескрипторы.

Поскольку информационно-поисковые тезаурусы обычно создаются для конкретных предметных областей, то их построение существенным образом базируется на таких сущностях, как «понятие» и «термин», под которым обычно понимается слово или словосочетание, номинирующее понятие определенной области знания или деятельности (Суперанская и др., 2003; Гринев, 1993;Лейчик, 1994; Володина, 1996).

Именно такое понимание термина является основанием рассматривать информационно-поисковые тезаурусы как вид онтологических ресурсов.