| Технология автоматического рубрицирования на основе тезауруса |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 15.02.2012 04:57 | |||
Технология автоматического рубрицирования на основе тезаурусаСуществуют два основных подхода к автоматическому рубрицированию документов - инженерный подход и подход на основе машинного обучения. Традиционным нашим подходом в сфере автоматической рубрикации является инженерный подход, в котором содержание рубрики описывается как булевское выражение над понятиями Общественно-политического тезауруса. Текущий рубрикатор связывается с тезаурусом посредством небольшого числа опорных понятий, рубрики остальных понятий тезауруса выводятся по связям внутри тезауруса, тем самым при описании очередного рубрикатора используется большой объем накопленных в тезаурусе знаний. Процедура рубрикации базируется на автоматически построенном тематическом представлении документов, которое моделирует основную тему и подтемы документа наборами (тематическими узлами) близких по смыслу понятий, упомянутых в документе. Такая основа рубрикации дает возможность обрабатывать тексты разных типов и размеров: нормативные акты, газетные статьи, новостные сообщения, научные публикации в области гуманитарных наук, социологические опросы (Лукашевич, 1996; Добров, Лукашевич, 2002а; Агеев и др., 2008). Посредством такой технологии рубрикации были разработаны более 15 систем автоматической рубрикации, в частности такие системы рубрикации, как: - рубрикация законодательных актов по Классификатору правовых актов РФ - 1169 рубрик, - рубрикация научных статей по экономике по рубрикатору JEL (Journal of Economic Literature - 700 рубрик), - рубрикация по правовому классификатору Центральной избирательной комиссии (450 рубрик, 4 уровня), -рубрикация социологических опросов по рубрикатору (300 рубрик) (данная система автоматического рубрицирования была реализована на базе тезауруса РуТез) и др. В следующих статьях рассмотрим подробнее особенности реализации систем автоматической рубрикации на основе тезауруса и тематического представления документов. Tags: Технология автоматического рубрицирования на основе тезауруса Тезаурус РуТез для автоматической рубрикации текстов
|