| Выводы семинара «Операционные системы классификации» |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 02.11.2011 17:39 | |||
Выводы семинара «Операционные системы классификации»В 2001 и 2002 годах проводились специальные семинары «Operational text categorization», целью которых был анализ ситуации в области автоматической рубрикации текстов, в том смысле, насколько активно различные методы автоматического рубрицирования используются в реальных условиях обработки больших текстовых массивах. Рассмотрим подробнее основные мнения докладчиков этих семинаров. М. Вассон из компании LexisNexis сообщил, что система автоматической рубрикации текстов работает в LexisNexis в течение многих лет. Система включает более 70000 категорий, включая рубрики и именованные сущности. Требования по точности и последовательности рубрикации очень высокие, поскольку среди пользователей много профессионалов. Системы рубрикации в LexisNexis создавались вручную и итеративно. Чистые подходы машинного обучения оказались неэффективными из-за огромного разнообразия используемых источников. Однако технологии обучения на примерах, например, в форме линейной регрессии, используются в качестве вспомогательного механизма для ручного описания рубрик и взвешивания слов и групп слов. Также, при использовании технологий, основанных на знаниях, все результаты просматриваются экспертом и могут быть изменены. Докладчик подчеркнул, что данные по эффективности того или иного метода или продукта по рубрикации текстов не всегда являются хорошими предсказателями эффективности их использования в LexisNexis. Представители компании Kanisa описали свой опыт использования систем автоматической рубрикации текстов для поддержки интерактивных помогающих систем. Документы состоят из документов типа «часто задаваемые вопросы», руководств, информации о продукции, и их нужно классифицировать по нескольким измерениям - это означает, что должны сосуществовать несколько таксономии (до 150 таксономии, до 2000 категорий на таксономию), которые отражают различные точки зрения. Большое количество близких по смыслу категорий и нехватка данных по многим категориям (а также стоимость разметки) не дают возможности использовать чистые технологии обучения по примерам. Текущий подход состоит в использовании ручного определения и описания рубрик, далее используются обучающие данные для настройки весов.
Также была представлена технология автоматического рубрицирования в рамках поисковой машины Northern Light Technology. Используется таксономия, состоящая из 16 тысяч категорий (9 уровней) для тематического рубрицирования, таксономия 150 типов документов и др. Таксономии созданы библиотекарями и базируются на существующих таксономиях.
Для автоматической рубрикации используется совокупность подходов, включая: - линейные классификаторы, обученные на примерах; - классификаторы, построенные на описываемых вручную правилах; - метаправила, которые заменяют множество более специфичных рубрик на более общую; - ограниченную ручную рубрикацию. Точность рубрикации считается более важной, чем полнота. 90 процентов точности необходимо для удобства пользователей. После значительной настройки система автоматической рубрикации в данной поисковой машине получает 90-95% точности по оценкам пользователей и 60-65 % точности в соответствии с внутренними строгими оценками. Полнота оценивается как 25%, но многие пропущенные документы представляют собой очень маленькие документы или документы, созданные исключительно для навигационных целей. Точность и полнота выше на документах, не относящихся к Интернет. Д. Льюис описал проект для Национального центра по благотворительной статистике (charitable), в котором необходимо автоматически классифицировать деятельность неправительственных организаций США. Используе¬мая таксономия - большая и иерархическая. Представлено более 20 тысяч примеров рубрикации. Однако были существенные проблемы с данными рубрикации: качество ручной рубрикации было различным (использовался труд стажеров и профессионалов), некоторая разметка происходила от разных версий рубрикатора и т. п. Несмотря на большой объем примеров, более 70% рубрик имело менее 20 примеров. Выводы организаторов семинара были следующими: в реальных системах широко используется обучение на примерах, однако редко работает схема: на входе данные - на выходе классифицирующая система. Ручное описание рубрик до стадии обучения или модификация классификаторов после обучения является достаточно распространенным явлением в реально работающих системах. Причины этого включают как необходимость учета человеческого знания о предметной области, которые могли и не быть обнаружены обучающей системой, так и проблемы отсутствия размеченных данных, стоимость разметки, непоследовательность разметки. Важная роль предметных знаний часто приводит к использованию менее эффективных систем классификации, но позволяющих вмешательство человека. Такие меры оценки рубрикации, как точность и полнота, не отражают полной картины качества рубрикации. В частности, некоторые ошибки системы рубрикации значительно хуже, чем другие, в терминах восприятия пользователя. Приписывание категории, которая ошибочна, но близка по смыслу к правильной категории, рассматривается пользователями как менее существенная ошибка, чем присваивание категории, полностью не соответствующей смыслу документа. Многие участники семинара выразили мнение, что лучше всего использовать автоматизированные системы или автоматизацию совместно с человеческим контролем, что может уменьшить издержки и увеличить последовательность в присвоении рубрик. Tags: Выводы семинара «Операционные системы классификации» Тезаурусы в системах автоматической рубрикации текстов
|