Войти



Последние материалы

Золотые партнеры:

куплю дом коттедж

Серебряные партнеры:

Ищете Arya - постельное белье arya интернет магазин.

Бронзовые партнеры:

Проблемы ручного рубрицирования
Статьи
Автор: Лукашевич Н.В.   
02.11.2011 17:28

Проблемы ручного рубрицирования

Характерными особенностями ручного рубрицирования являются:

-        высокая точность рубрицирования; как показывает практика, процент документов, в которых проставлена явно неправильная рубрика, мал;

-        низкая скорость обработки документов;

-        низкая полнота рубрицирования. Обычно специалисты по рубрикации проставляют рубрики, характеризующие основное содержание документа, хотя документ может быть отнесен и к ряду других рубрик. В результате получается, что при сравнении результатов рубрикации разными экспертами одних и тех же документов процент совпадения проставленных рубрик может оказаться весьма низким -60%, то есть похожие документы могут получить достаточно разные наборы рубрик. Такая ситуация усугубляется при росте величины и иерархической сложности рубрикатора.

Непоследовательность ручного рубрицирования становится серьезной проблемой для настройки разного типа систем автоматического рубрицирования, поскольку затрудняется построение формальных правил отнесения документов к той или иной рубрике. Представляется, что основными причинами непоследовательности в работе экспертов-индексаторов при рубрици-ровании по большим классификаторам является:

1)      сложность ориентации в большом классификаторе (эксперт может не знать или забыть о существовании более близкой по смыслу рубрики);

2)      неуверенность эксперта, который обычно является специалистом по ограниченному кругу вопросов, неспособность при необходимости принимать точное решение по вопросам, в которых он менее компетентен (например, специалист по строительству будет менее компетентен в вопросах финансов, и наоборот). В этом случае эксперт может поставить более широкую рубрику (что не очень плохо), ошибочную рубрику или не ставить, на всякий случай, никакой рубрики;

3)      сложность в принятии решения о важности/неважности побочных тем для содержания документа;

 

4) наличие неформализованных ограничивающих правил рубрициро-вания. Суть проблемы заключается в том, что ограничивающие правила рубрицирования, не связанные непосредственно с формули¬ровкой конкретной рубрики, являются серьезной базой для субъективизма:

-        об этих правилах забывает часть экспертов,

-для разных рубрик эти правила соблюдаются с разной степенью последовательности,

-        эти правила неизвестны пользователю, в большой степени он

опирается на буквальную формулировку рубрики.

Таким образом, на наш взгляд, создание достаточно большой, последовательно отрубрицированной текстовой коллекции является серьезной организационной проблемой.