| Методы автоматической рубрикации и оценка их качества |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 02.11.2011 17:22 | |||
Методы автоматической рубрикации и оценка их качестваКлассификация/рубрикация информации (отнесение порции информации к одной или нескольким категориям из ограниченного множества) является традиционной задачей организации знаний и обмена информацией, рассматривается как одна из классических задач информационного поиска. Распространенность больших информационных коллекций делает необходимым развитие автоматических методов рубрикации. В данной группе статей будут рассмотрены основные методы автоматической рубрикации, метрики оценки качества автоматической рубрикации, эксперименты по использованию тезауруса WordNet в данной задаче.
Известны две основных технологии автоматической рубрикации: - методы, основанные на знаниях (также именуемые «инженерный подход»), при применении которых правила отнесения текстов к рубрикам строятся инженерами по знаниям в форме булевских выражений, правил продукций и т. п. - методы на основе машинного обучения, при применении которых используется коллекция документов, предварительно отрубрицированная человеком; алгоритм машинного обучения строит процедуру классификации документов на основе автоматического анализа заданного множества отрубрицированных текстов. Оценка качества автоматической классификации производится путем сравнения с эталонной («правильной») классификацией набора документов, т. е. на основе коллекции документов, отрубрицированных вручную. Для оценки эффективности работы систем рубрицирования используются такие характеристики, как полнота и точность (Агеев, Кураленок, 2004). Полнота (г - recall) - это отношение R/Q, где R - количество текстов, правильно отнесенных к некоторой рубрике, a Q - общее количество текстов, которые должны быть отнесены к этой рубрике. Точность (р - precision) - это отношение R/L, где R - количество текстов, правильно отнесенных системой к некоторой рубрике, a L - общее количество текстов, отнесенных системой к этой рубрике. Метрика F-мера часто используется как единая метрика, объединяющая метрики полноты и точности в одну метрику. F-мера для данного запроса (рубрики) вычисляется по формуле: р г Также иногда используется метрика аккуратности (accuracy), которая вычисляется как отношение правильно принятых системой решений к общему числу решений. Формально Аккуратность = (R+R^)/D, где R - количество текстов, правильно отнесенных системой к рубрике, R -число текстов, правильно не отнесенных системой к рубрике, D - общее число документов в коллекции. Таким образом, знаменатель не зависит от рассматриваемой рубрики. Для оценки эффективности методов машинного обучения для задачи автоматической рубрикации текстов используются стандартные коллекции текстов, классифицированных по заданным рубрикаторам. Считается, что наиболее эффективными, но и наиболее трудозатратными являются методы автоматического рубрицирования, основанные на знаниях. При рубрицировании текстов на основе знаний используются заранее сформированные базы знаний, в которых описываются языковые выражения, соответствующие той или иной рубрике, правила выбора между рубриками и др. (Goodman, 1991; Hayes, 1992). Так, например, в классической работе по инженерному подходу к автоматической рубрикации текстов (Hayes, 1992) рубрики определяются на основе сопоставления каждой рубрике совокупности специальных шаблонов. Шаблон определяется как конструкция, состоящая из произвольного количества дизъюнкций, конъюнкций, отрицаний, пропусков слов и операторов необязательности. В такой конструкции могут быть также заданы части речи, способ написания (с большой или маленькой буквы), знаки препинания. Каждому такому шаблону приписан вес, определяющий, насколько сильно этот шаблон соответствует той или иной рубрике. Суммирование весов шаблонов, сопоставленных одной и той же рубрике по тексту, дает величину соответствия этой рубрики тексту. Решение о выборе рубрик для текста принимается на основе правил, в которых учитывается, какие рубрики были обнаружены в тексте, в какой части текста встречались соответствующие шаблоны и какой суммарный вес имеет каждая рубрика. Результаты работы таких систем на тех текстовых потоках, для которых они проектировались, дают очень высокие оценки эффективности автематического рубрицирования. Например, в работе (Hayes, 1992) приводятся следующие характеристики эффективности работы системы автоматического рубрицирования экономических и финансовых сообщений информационного агентства Рейтер: точность - 84%, полнота - 94%. Объем рубрикатора - 674 рубрики. В работе (Riloff, Lehnert, 1994) сообщается о реализации технологии автоматической рубрикации, достигающей 100% точности при 60% полноты. Однако разработка систем автоматического рубрицирования, основанных на знаниях, требует больших затрат труда и часто занимает несколько человеко-лет. В таких системах базы знаний и алгоритмы жестко настроены не только на предметную область, но и на рубрикатор, размер и формат текстов. Поэтому изменение рубрикатора или необходимость рубрицирования текстов той же предметной области, но из другого источника информации, влечет за собой значительные дополнительные усилия. В настоящее время можно наблюдать всплеск научных работ, посвященных применению методов машинного обучения для автоматической рубрикации текстов. В публикациях приводятся высокие оценки результатов работы таких методов (Dumais и др., 1998; Joachims, 1998; Lewis, 2001; Yang, Liu, 1999). Однако, как отмечалось в ряде работ (Ageev и др., 2002; Dumais и др., 2002; Lewis, 2001; Sebastiani, 2001; Rose и др., 2002), для больших рубрикаторов - 500 и более рубрик - из-за трудности формирования качественной непротиворечивой обучающей коллекции единственно работающим подходом в настоящее время является так называемый «инженерный» подход (Wasson, 2001; Hayes, 1992; Добров, Лукашевич, 2002а), подразумевающий ручное описание смысла каждой рубрики. Например, в компании Рейтер, предоставляющей текстовые коллекции, на которых продемонстрированы многие высокие результаты технологий машинного обучения, в собственном бизнес-процессе используется технология, сочетающая работу системы автоматической рубрикации, основанной на знаниях, с последующим просмотром редакторами (Rose и др., 2002). Ниже мы подробнее опишем достигнутые результаты и проблемы разных технологий автоматической рубрикации текстов, а также на основе материалов семинара Operational Text Categorization («Реально работающая» рубрикация текстов) (Dumais и др., 2002; Lewis, Sebastiani, 2001) рассмотрим, каково состояние дел по применению технологий автоматической рубрикации в реальных организациях на реальных текстовых массивах (в противовес исследовательским публикациям на научных конференциях и в научных журналах). В заключение будут рассмотрены подходы к использованию тезауруса WordNet как дополнительного источника информации в методах машинного обучения. Tags: Методы автоматической рубрикации и оценка их качества Тезаурусы в системах автоматической рубрикации текстов
|