Войти



Последние материалы

Золотые партнеры:

лепестки роз

Серебряные партнеры:

Бронзовые партнеры:

Проблемы методов машинного обучения
Статьи
Автор: Лукашевич Н.В.   
02.11.2011 17:32

Проблемы методов машинного обучения

При разработке системы автоматической рубрикации, основанной на машинном обучении, необходима коллекция документов, размеченная экспертами по рубрикам. Для эффективного обучения рубрицированию по большому рубрикатору требуется большее число размеченных документов. Важной особенностью такой размеченной коллекции является то, что разметка должна быть выполнена последовательно, т. е. необходимо, чтобы эксперты применяли одни и те же принципы отнесения текстов к рубрике, чтобы похожие документы получали похожие рубрики.

Однако для многих возникающих на практике задач, где требуется автоматическая классификация текстов, коллекция классифицированных документов либо отсутствует, либо имеет недостаточный объем. В этом случае методы машинного обучения неприменимы, и затраты на создание обучающей коллекции адекватного объема весьма высоки. Кроме того, при низкой степени согласованности проставления рубрик, методы машинного обучения дают весьма низкие результаты.

Проблема создания обучающей коллекции достаточного объема и качества обостряется с увеличением количества рубрик. Распределение количества документов по рубрикам существенно неравномерно, поэтому большая часть рубрик содержит весьма мало документов.

Таким образом, факторами, усложняющими или делающими невозможным применение методов машинного обучения для автоматической рубрикации текстов, являются следующие:

-        множество примеров рубрикации отсутствует и не может быть создано в короткое время;

-        множество примеров рубрикации существует, но при их создании отсутствовали требования к качеству, например, документы отрубрицированы их авторами, то есть людьми, которые не имеют согласованного взгляда на содержание каждой конкретной рубрики;

-        множество примеров противоречиво и (или) недостаточно для большинства рубрик (очень большие классификаторы) - такая ситуация может возникнуть и при едином руководстве ручной рубрикацией;

-        множество примеров для обучения взято из близкой, но другой коллекции, для которой значимое количество примеров имеется.

Кроме того, попытки использования методов рубрикации, основанных на машинном обучении, в автоматизированных режимах с участием экспертов-индексаторов сталкиваются с проблемой плохой объяснимости результатов машинного обучения, невозможностью продемонстрировать эксперту конкретные слова или словосочетания, которые привели к выбору данной рубрики.