Войти



Последние материалы

Золотые партнеры:

Серебряные партнеры:

Бронзовые партнеры:

Технология автоматического рубрицирования на основе тезауруса
Статьи
Автор: Лукашевич Н.В.   
15.02.2012 04:57

Технология автоматического рубрицирования на основе тезауруса

Существуют два основных подхода к автоматическому рубрицированию документов - инженерный подход и подход на основе машинного обучения. Традиционным нашим подходом в сфере автоматической рубрикации является инженерный подход, в котором содержание рубрики описывается как булевское выражение над понятиями Общественно-политического тезауруса. Текущий рубрикатор связывается с тезаурусом посредством небольшого числа опорных понятий, рубрики остальных понятий тезауруса выводятся по связям внутри тезауруса, тем самым при описании очередного рубрикатора используется большой объем накопленных в тезаурусе знаний.

Процедура рубрикации базируется на автоматически построенном тематическом представлении документов, которое моделирует основную тему и подтемы документа наборами (тематическими узлами) близких по смыслу понятий, упомянутых в документе. Такая основа рубрикации дает возможность обрабатывать тексты разных типов и размеров: нормативные акты, газетные статьи, новостные сообщения, научные публикации в области гуманитарных наук, социологические опросы (Лукашевич, 1996; Добров, Лукашевич, 2002а; Агеев и др., 2008).

Посредством такой технологии рубрикации были разработаны более 15 систем автоматической рубрикации, в частности такие системы рубрикации, как:

-              рубрикация законодательных актов по Классификатору правовых актов РФ - 1169 рубрик,

-              рубрикация научных статей по экономике по рубрикатору JEL (Journal of Economic Literature - 700 рубрик),

-              рубрикация по правовому классификатору Центральной избирательной комиссии (450 рубрик, 4 уровня),

-рубрикация социологических опросов по рубрикатору (300 рубрик) (данная система автоматического рубрицирования была реализована на базе тезауруса РуТез) и др.

В следующих статьях рассмотрим подробнее особенности реализации систем автоматической рубрикации на основе тезауруса и тематического представления документов.