Войти



Советуем прочесть

Последние материалы

Золотые партнеры:

купить дом

Серебряные партнеры:

Разработанным логотипом и фирменным стилем. Программа разработки логотипа скачать. . электрический теплый пол

Бронзовые партнеры:

Тезаурусы и рубрикаторы в информационно-поисковых системах
Статьи
Автор: Лукашевич Н.В.   
03.10.2011 17:06

Тезаурусы и рубрикаторы в информационно-поисковых системах

В настоящее время в информационно-поисковых системах значительно более широко, чем информационно-поисковые тезаурусы, используются рубрикаторы - классификационные системы.

ГОСТ 7.74-96 определяет классификационную систему следующим образом:

Рубрикатор (классификационная система) - это средство формализованного представления содержания документов, данных и информационных запросов посредством кодов или описаний классов логически упорядоченного множества понятий. Информационные классификационные системы являются одним из типов информационно-поисковых языков.

Рубрикаторы могут быть иерархическими и фасетными.

Иерархический рубрикатор - это классификационная структура, основанная на отношениях подчинения.

Иерархическими являются библиотечные рубрикаторы, такие как УДК (Универсальная десятичная классификация), ББК (Библиотечно-библиографическая классификация), ГРНТИ (Государственный рубрикатор научно-технической информации).

Фасетный рубрикатор - это классификационная структура, основанная на делении классифицируемого множества по нескольким классификационным признакам одновременно. Так, новостное сообщение может классифицироваться как по основной теме, так и по региону, в котором произошло событие данной новости. Используются и смешанные формы рубрикаторов.

Может возникнуть вопрос, в чем заключается отличие между рубрикаторами и тезаурусами. Имеется главное теоретическое отличие терминов тезауруса от рубрик рубрикатора. Термины тезауруса являются фундаментально языковыми, в то время как рубрики соответствуют концептуальным категориям (Bates, 1988).

Цель разработки информационно-поискового тезауруса - используя реально существующие термины предметной области, найти хорошие, компактные слова и фразы для описания основных тем документов, сведя синонимы и квазисинонимы к дескрипторам тезауруса.

Цель создания рубрикаторов, которая не всегда достигается, но всегда ставится, - разработать совершенно отдельные концептуальные категории, которые взаимно не пересекаются. В идеале не должно быть пересечений между рубриками и не должно быть промежутков, то есть ни одна подобласть не должна остаться вне рубрик рубрикатора.

Для того, чтобы определить рубрики достаточно строго и исключить пересечение значений, часто необходимо называть рубрики длинными и «неуклюжими» именами, например «Тропические и субтропические фрукты и орехи; полевые культуры». Такое словосочетание не встретить в тезаурусе, его назначение - четко определить отдельную концептуальную категорию. Поскольку работать с такими сложно сформулированными сущностями достаточно тяжело, им обычно присваивается некоторая система классификационных кодов.

Таким образом, рубрикатор создается сверху, разделением предметной области на подобласти, а тезаурус - снизу, начиная от терминологии конкретных документов.

Процесс присваивания рубрик документам - рубрицирование - в современных информационных системах может осуществляться вручную, в автоматическом или автоматизированном режимах.