Войти



Последние материалы

Золотые партнеры:

Серебряные партнеры:

Бронзовые партнеры:

Исследование методов рубрикации на коллекции Reuters-21578
Статьи
Автор: Лукашевич Н.В.   
02.11.2011 17:26

Исследование методов рубрикации на коллекции Reuters-21578

Рассмотрим результаты рубрикации для наиболее популярных англоязычных и русскоязычных корпусов текстов.

Большое число исследований эффективности методов автоматической рубрикации проводится на популярной коллекции финансовых сообщений информационного агентства Рейтер - Reuters-21578, которая была специально создана для тестирования методов автоматической рубрикации текстов (Lewis, Reuters-21578). Для этой коллекции характерны следующие особенности:

-тексты  сообщений  небольшие по величине  и  принадлежат узкой

предметной области финансовых и биржевых новостей; -рубрикатор, включающий  135 рубрик, относительно прост, без иерархии,   причем   первоначально   (Dumais   и   др.,    1998;   Debole, Sebastiani, 2004) для тестирования использовались лишь 10 наиболее частотных рубрик;

-        присвоение рубрик проводилось с контролем качества работы экспертов. В частности, 40% из имеющихся 21578 документов не рекомендуются к использованию из-за того, что присвоение рубрик к ним

признано некачественным. Оставшиеся 12902 документа помечены

как «качественно отрубрицированные».

Для 10 наиболее частотных рубрик коллекции Reuters-21578 результаты применения машинного обучения весьма высоки - в среднем около 84% F-меры. Сравнительные исследования эффективности методов машинного обучения на коллекции Reuters-21578 (Dumais и др., 1998; Joachims, 1998; Ageev и др., 2002) показали, что наиболее эффективным является метод опорных векторов SVM по сравнению с методами Байеса, ближайших соседей, Rocchio, деревьев решений С4.5, нейронных сетей, байесовских сетей.

Дальнейшие исследования, однако, показали, что для менее частотных рубрик качество рубрикации методом SVM значительно ниже. В среднем по 50 наиболее частотным рубрикам значение F-меры составляет 56% (Ageev, Dobrov, 2003).

В 2004 г. в работе (Debole, Sebasiani, 2004) было представлено детальное исследование качества классификации коллекции Reuters-21578 в зависимо¬сти от используемого алгоритма машинного обучения, подмножества рубрик и способа усреднения оценок. Оказалось, что:

-        выбор способа оценки и множества рубрик влияет на результат силь¬

нее, чем выбор метода машинного обучения;

-       качество классификации частотных рубрик значительно выше, чем низкочастотных;

-        усреднение по парам документ-рубрика (микроусреднение) (Агеев,

Кураленок, 2004) дает более высокий результат, чем усреднение по рубрикам (макроусреднение) - этот вывод формально следует из предыдущего, т. к. высокочастотные рубрики дают больший вклад в микроусредненную метрику, чем в макроусредненную;

-        лучший результат для 90 рубрик - всего около 50% F-меры в среднем

по рубрикам. Таким образом, при детальном рассмотрении системы рубрикации, основанные на машинном обучении, имеют серьезные проблемы даже на относительно простом рубрикаторе: 50% F-меры означает, что только половина документов получили правильные рубрики (Агеев и др., 2008).

13.2.2. Исследование методов рубрикации на коллекции РОМИП

Среди российских исследователей способом оценки эффективности систем автоматической рубрикации текстов является участие в Российском семинаре по методам информационного поиска РОМИП (http://romip.ru). В дорожках классификации РОМИП использовались 5 коллекций документов и три рубрикатора объемом 160-240 рубрик:

-«Сайты Интернет»: NAROD.RU (-700 000 документов), DMOZ (-300 000 документов) и BY.WEB (-1 500 000 документов).

-        «Нормативно-правовые документы РФ»: 2004-2006 годы - -64 000

документов, 2007 год - -300 000 документов.

Задачи автоматической рубрикации текстов РОМИП имеют следующие особенности:

-        коллекции документов и рубрикаторы имеют широкий спектр тематики;

-        значительное число рубрик;

-        для оценки качества рубрикации рубрики присваиваются документам большим количеством экспертов, зачастую с низким контролем качества.

Участники дорожек классификации РОМИП 2003-2009 годов применяли разные методы машинного обучения: SVM (в множестве вариаций, с оптимизацией различных параметров), нейронные сети, некоторые модификации метода Rocchio и др. Полученные лучшие результаты по разным типам документам и рубрикаторам составляют 45-55% F-меры, что характерно также и для коллекции Reuters-21578.

13.3. Проблемы методов классификации текстов

Традиционно считается, что несоответствие результатов автоматической классификации ожидаемым, разумным критериям соответствия документов рубрикам вызвано несовершенством самих методов автоматической классификации. Данное предположение является основной мотивацией для разработки более совершенных моделей представления текста и методов автоматической классификации.

Однако определение основной тематики текста и выбор адекватных рубрик является сложной проблемой и для человека. Трудность ручного рубрицирования и неоднозначность выбора адекватных рубрик является проблемой, порождающей многие проблемы автоматического рубрицирования (Агеев и др., 2008). Поэтому сначала мы рассмотрим проблемы ручного рубрицирования, а затем перейдем к описанию проблем автоматических методов рубрицирования.