| Проблемы ручного рубрицирования |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 02.11.2011 17:28 | |||
Проблемы ручного рубрицированияХарактерными особенностями ручного рубрицирования являются: - высокая точность рубрицирования; как показывает практика, процент документов, в которых проставлена явно неправильная рубрика, мал; - низкая скорость обработки документов; - низкая полнота рубрицирования. Обычно специалисты по рубрикации проставляют рубрики, характеризующие основное содержание документа, хотя документ может быть отнесен и к ряду других рубрик. В результате получается, что при сравнении результатов рубрикации разными экспертами одних и тех же документов процент совпадения проставленных рубрик может оказаться весьма низким -60%, то есть похожие документы могут получить достаточно разные наборы рубрик. Такая ситуация усугубляется при росте величины и иерархической сложности рубрикатора. Непоследовательность ручного рубрицирования становится серьезной проблемой для настройки разного типа систем автоматического рубрицирования, поскольку затрудняется построение формальных правил отнесения документов к той или иной рубрике. Представляется, что основными причинами непоследовательности в работе экспертов-индексаторов при рубрици-ровании по большим классификаторам является: 1) сложность ориентации в большом классификаторе (эксперт может не знать или забыть о существовании более близкой по смыслу рубрики); 2) неуверенность эксперта, который обычно является специалистом по ограниченному кругу вопросов, неспособность при необходимости принимать точное решение по вопросам, в которых он менее компетентен (например, специалист по строительству будет менее компетентен в вопросах финансов, и наоборот). В этом случае эксперт может поставить более широкую рубрику (что не очень плохо), ошибочную рубрику или не ставить, на всякий случай, никакой рубрики; 3) сложность в принятии решения о важности/неважности побочных тем для содержания документа;
4) наличие неформализованных ограничивающих правил рубрициро-вания. Суть проблемы заключается в том, что ограничивающие правила рубрицирования, не связанные непосредственно с формули¬ровкой конкретной рубрики, являются серьезной базой для субъективизма: - об этих правилах забывает часть экспертов, -для разных рубрик эти правила соблюдаются с разной степенью последовательности, - эти правила неизвестны пользователю, в большой степени он опирается на буквальную формулировку рубрики. Таким образом, на наш взгляд, создание достаточно большой, последовательно отрубрицированной текстовой коллекции является серьезной организационной проблемой.
|