Войти



Последние материалы

Золотые партнеры:

Тур операторы по Бразилии - свадебные туры в Бразилию. Туры в бразилию 2011.

Серебряные партнеры:

Бланки ценных бумаг - бали билеты на самолет цены. . бензобур

Бронзовые партнеры:

Выводы семинара «Операционные системы классификации»
Статьи
Автор: Лукашевич Н.В.   
02.11.2011 17:39

Выводы семинара «Операционные системы классификации»

В 2001 и 2002 годах проводились специальные семинары «Operational text categorization», целью которых был анализ ситуации в области автоматической рубрикации текстов, в том смысле, насколько активно различные методы автоматического рубрицирования используются в реальных условиях обработки больших текстовых массивах.

Рассмотрим подробнее основные мнения докладчиков этих семинаров.

М. Вассон из компании LexisNexis сообщил, что система автоматической рубрикации текстов работает в LexisNexis в течение многих лет. Система включает более 70000 категорий, включая рубрики и именованные сущности. Требования по точности и последовательности рубрикации очень высокие, поскольку среди пользователей много профессионалов.

Системы рубрикации в LexisNexis создавались вручную и итеративно. Чистые подходы машинного обучения оказались неэффективными из-за огромного разнообразия используемых источников. Однако технологии обучения на примерах, например, в форме линейной регрессии, используются в качестве вспомогательного механизма для ручного описания рубрик и взвешивания   слов и групп слов.   Также, при использовании технологий, основанных на знаниях, все результаты просматриваются экспертом и могут быть изменены. Докладчик подчеркнул, что данные по эффективности того или иного метода или продукта по рубрикации текстов не всегда являются хорошими предсказателями эффективности их использования в LexisNexis.

Представители компании Kanisa описали свой опыт использования систем автоматической рубрикации текстов для поддержки интерактивных помогающих систем. Документы состоят из документов типа «часто задаваемые вопросы», руководств, информации о продукции, и их нужно классифицировать по нескольким измерениям - это означает, что должны сосуществовать несколько таксономии (до 150 таксономии, до 2000 категорий на таксономию), которые отражают различные точки зрения.

Большое количество близких по смыслу категорий и нехватка данных по многим категориям (а также стоимость разметки) не дают возможности использовать чистые технологии обучения по примерам. Текущий подход состоит в использовании ручного определения и описания рубрик, далее используются обучающие данные для настройки весов.

 

Также была представлена технология автоматического рубрицирования в рамках поисковой машины Northern Light Technology. Используется таксономия, состоящая из 16 тысяч категорий (9 уровней) для тематического рубрицирования, таксономия 150 типов документов и др. Таксономии созданы библиотекарями и базируются на существующих таксономиях.

 

Для автоматической рубрикации используется совокупность подходов, включая:

-        линейные классификаторы, обученные на примерах;

-        классификаторы, построенные на описываемых вручную правилах;

-        метаправила, которые заменяют множество более специфичных рубрик на более общую;

-        ограниченную ручную рубрикацию.

Точность рубрикации считается более важной, чем полнота. 90 процентов точности необходимо для удобства пользователей. После значительной настройки система автоматической рубрикации в данной поисковой машине получает 90-95% точности по оценкам пользователей и 60-65 % точности в соответствии с внутренними строгими оценками. Полнота оценивается как 25%, но многие пропущенные документы представляют собой очень маленькие документы или документы, созданные исключительно для навигационных целей. Точность и полнота выше на документах, не относящихся к Интернет.

Д. Льюис описал проект для Национального центра по благотворительной статистике (charitable), в котором необходимо автоматически классифицировать деятельность неправительственных организаций США. Используе¬мая таксономия - большая и иерархическая. Представлено более 20 тысяч примеров рубрикации. Однако были существенные проблемы с данными рубрикации: качество ручной рубрикации было различным (использовался труд стажеров и профессионалов), некоторая разметка происходила от разных версий рубрикатора и т. п. Несмотря на большой объем примеров, более 70% рубрик имело менее 20 примеров.

Выводы организаторов семинара были следующими: в реальных системах широко используется обучение на примерах, однако редко работает схема: на входе данные - на выходе классифицирующая система. Ручное описание рубрик до стадии обучения или модификация классификаторов после обучения является достаточно распространенным явлением в реально работающих системах. Причины этого включают как необходимость учета человеческого знания о предметной области, которые могли и не быть обнаружены обучающей системой, так и проблемы отсутствия размеченных данных, стоимость разметки, непоследовательность разметки. Важная роль предметных знаний часто приводит к использованию менее эффективных систем классификации, но позволяющих вмешательство человека.

Такие меры оценки рубрикации, как точность и полнота, не отражают полной картины качества рубрикации. В частности, некоторые ошибки системы рубрикации значительно хуже, чем другие, в терминах восприятия пользователя. Приписывание категории, которая ошибочна, но близка по смыслу к правильной категории, рассматривается пользователями как менее существенная ошибка, чем присваивание категории, полностью не соответствующей смыслу документа.

Многие участники семинара выразили мнение, что лучше всего использовать автоматизированные системы или автоматизацию совместно с человеческим контролем, что может уменьшить издержки и увеличить последовательность в присвоении рубрик.