| Организация рубрицирования в компании Reuters |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 02.11.2011 17:46 | |||
Организация рубрицирования в компании ReutersКак известно, компания Reuters уже в течение многих лет предоставляет свои отрубрицированные коллекции документов для исследований в области автоматической рубрикации. Интересно рассмотреть, как организован процесс рубрикации документов в самой компании Reuters (Rose и др., 2004). Компания Reuters начала применять схему автоматизации проставления категорий документов с конца 90-х годов. Применяется следующая схема классификации. Все сообщения должны быть классифицированы по теме, региону и сектору производства. Тематические классы представляют тематическую направленность каждого документа. Они организованы в 4 иерархические группы с четырьмя верхними категориями: Corporate/Industrial, Economics, Government/Social, Markets. Всего насчитывается 126 рубрик, однако 103 рубрики применяются для рубрикации сообщений. Для рубрикации по сектору производства используется рубрикатор из 870 рубрик, из которых 376 реально применяются к классификации документов. Имеется также 366 кодов регионов. Основным принципом рубрикации считается, что документ должен содержать хотя бы одну тематическую рубрику и хотя бы одну рубрику региона. Первоначально использовалась система рубрикации, основанная на правилах. Однако такой подход имел следующие недостатки: - создание правил требовало специального знания, что затрудняло добавление новых категорий и адаптацию системы к изменяющемуся выводу, - правила не обеспечивали меры уверенности в своем выводе, что не позволяло фокусировать труд редакторов на наиболее сложных случаях, а также не позволяло обнаруживать изменения во входных документах, требующих изменений или добавлений в наборе категорий. Текущая схема обработки документов такова. Сначала тексты проходят через систему рубрикации TIS, основанную на правилах, которая содержит правила для проставления большинства рубрик. Однако было выяснено, что проставление некоторых рубрик трудно полностью автоматизировать. Поэтому такие рубрики проставляются только вручную. Далее автоматически проверяется соответствие проставленных рубрик правилу наличия хотя бы одной тематической рубрики и хотя бы одного кода региона. Если документ не соответствует данному правилу, то он сразу отправляется к редакторам. Если соответствует, то перемещается в специальную очередь. В очереди каждый документ подвергается проверке хотя бы одним редактором. Кроме того, каждый месяц старший редактор берет выборку отрубрицированных документов на проверку, результаты этой проверки доводятся до сведения редакторов. Последовательность проводимого рубрицирования можно в некоторой степени оценить, если вычислить процентное соотношение, сколько раз рубрики, проставленные данным редактором, были исправлены по отношению к числу сделанных решений. Результаты программы автоматической рубрикации - исправлялись в 77%. Средний процент коррекции по людям-редакторам -5.16%. Для оценки последовательности рубрицирования конкретными людьми были сопоставлены доли разных рубрик, проставляемых каждым экспертом. В среднем, коэффициент корреляции составил 0.968 со стандартным отклонением 0.018. Наибольшее отклонение показывают начинающие редакторы и автоматическая система. Таким образом, в компании Reuters для автоматической рубрикации текста и обеспечения качества и последовательности рубрикации применяется достаточно сложная организационная схема. Tags: Организация рубрицирования в компании Reuters Тезаурусы в системах автоматической рубрикации текстов
|