Войти



Последние материалы

Золотые партнеры:

батуты спортивные

Серебряные партнеры:

Бронзовые партнеры:

Проблемы автоматического рубрицирования с использованием экспертного описания рубрик
Статьи
Автор: Лукашевич Н.В.   
02.11.2011 17:35

Проблемы автоматического рубрицирования с использованием экспертного описания рубрик

К достоинствам методов, основанных на знаниях, относится высокая эффективность и «прозрачность» алгоритма - результаты обработки легко интерпретировать, то есть понять, почему документ был отнесен к данной рубрике. Для реализации этих методов фактор непоследовательного рубрицирования коллекции не является существенным. Основным недостатком этого класса методов является высокая трудоёмкость описания рубрик.

Проблемы автоматического рубрицирования с использованием «инженерного подхода» связаны со следующими обстоятельствами:

-для автоматической рубрикации нужно вручную создать описание рубрики как некоторое выражение на основе слов и (или) терминов реальных текстов; неполный учет вариантов употребления слов в тексте может привести к проблемам при автоматической рубрикации;

-        при автоматической обработке конкретных текстов могут возникнуть

достаточно серьезные проблемы анализа языкового материала, контекста употребления того или иного слова, требующие привлечения

обширных знаний о языке и предметной области, которые очень

трудно описать в действующих программных системах автоматической рубрикации.

Так, серьезной проблемой, приводящей к появлению ложных рубрик или нехватке правильных рубрик, является многозначность слов, т. е. употребление слова в тексте не в том значении, на которое рассчитывал эксперт, составляя образ рубрики.

Еще одной неприятной проблемой является так называемая проблема ложной корреляции. Ложная корреляция может возникнуть в случаях, когда для отнесения текста к рубрике необходимо присутствие в тексте двух логических элементов. Например, для рубрицирования по рубрике «Экономические реформы» необходимо присутствие в тексте двух тематических элементов - темы экономики и темы реформы. Ложная корреляция и, соответственно, неправильное отнесение текста к данной рубрике возникает в тех случаях, когда такие тематические элементы присутствуют в тексте, но не имеют отношения друг к другу. Например, такая ситуация может произойти, если в тексте речь шла о судебной реформе и были упомянуты некоторые экономические вопросы.

Сложной является и ситуация, которую можно обозначить как рубрикацию по несущественному элементу. Текст отнесен к рубрике по слову или словосочетанию, которое, по сути, соответствует содержанию рубрики, но в данном тексте это опорное слово или словосочетание употреблено случайно или в каком-то специфическом контексте, из-за чего текст становится нерелевантным рубрике. Например, текст может быть ошибочно отнесен к рубрике «Средства массовой информации» на основе следующего фрагмента: «Около 40 человек умерли во Франции в результате установившейся в стране жары... Правительство и средства массовой информации следят за ситуацией...».

Таким образом, при инженерном подходе к рубрикации после создания образов рубрик необходимо проводить несколько этапов тестирования сделанных описаний рубрик.