| Тезаурусы и рубрикаторы в информационно-поисковых системах |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 03.10.2011 17:06 | |||
Тезаурусы и рубрикаторы в информационно-поисковых системахВ настоящее время в информационно-поисковых системах значительно более широко, чем информационно-поисковые тезаурусы, используются рубрикаторы - классификационные системы. ГОСТ 7.74-96 определяет классификационную систему следующим образом: Рубрикатор (классификационная система) - это средство формализованного представления содержания документов, данных и информационных запросов посредством кодов или описаний классов логически упорядоченного множества понятий. Информационные классификационные системы являются одним из типов информационно-поисковых языков. Рубрикаторы могут быть иерархическими и фасетными. Иерархический рубрикатор - это классификационная структура, основанная на отношениях подчинения. Иерархическими являются библиотечные рубрикаторы, такие как УДК (Универсальная десятичная классификация), ББК (Библиотечно-библиографическая классификация), ГРНТИ (Государственный рубрикатор научно-технической информации). Фасетный рубрикатор - это классификационная структура, основанная на делении классифицируемого множества по нескольким классификационным признакам одновременно. Так, новостное сообщение может классифицироваться как по основной теме, так и по региону, в котором произошло событие данной новости. Используются и смешанные формы рубрикаторов. Может возникнуть вопрос, в чем заключается отличие между рубрикаторами и тезаурусами. Имеется главное теоретическое отличие терминов тезауруса от рубрик рубрикатора. Термины тезауруса являются фундаментально языковыми, в то время как рубрики соответствуют концептуальным категориям (Bates, 1988). Цель разработки информационно-поискового тезауруса - используя реально существующие термины предметной области, найти хорошие, компактные слова и фразы для описания основных тем документов, сведя синонимы и квазисинонимы к дескрипторам тезауруса. Цель создания рубрикаторов, которая не всегда достигается, но всегда ставится, - разработать совершенно отдельные концептуальные категории, которые взаимно не пересекаются. В идеале не должно быть пересечений между рубриками и не должно быть промежутков, то есть ни одна подобласть не должна остаться вне рубрик рубрикатора. Для того, чтобы определить рубрики достаточно строго и исключить пересечение значений, часто необходимо называть рубрики длинными и «неуклюжими» именами, например «Тропические и субтропические фрукты и орехи; полевые культуры». Такое словосочетание не встретить в тезаурусе, его назначение - четко определить отдельную концептуальную категорию. Поскольку работать с такими сложно сформулированными сущностями достаточно тяжело, им обычно присваивается некоторая система классификационных кодов. Таким образом, рубрикатор создается сверху, разделением предметной области на подобласти, а тезаурус - снизу, начиная от терминологии конкретных документов. Процесс присваивания рубрик документам - рубрицирование - в современных информационных системах может осуществляться вручную, в автоматическом или автоматизированном режимах.
|