Войти



Последние материалы

Золотые партнеры:

Снаряжение летом - дешевле: дайвинг клуб.

Серебряные партнеры:

Бесплатные объявления - купить двуспальную кровать. . Паркетные полы Coswick - укладка паркетной доски.

Бронзовые партнеры:

Использование тезаурусов в автоматической рубрикации текстов
Статьи
Автор: Лукашевич Н.В.   
02.11.2011 17:52

Использование тезаурусов в автоматической рубрикации текстов

Подходы машинного обучения для автоматической рубрикации документов используют набор свойств, характеристик исходного документа. Существенной составной частью этих свойств является множество слов (отличных от стоп-слов), упоминаемых в документах. Одним из направлений в подходах, стремящихся увеличить предсказуемостную мощность обучающего метода, является использование знаний о синонимах и лексических отношениях, описанных в WordNet.

Наиболее популярным направлением исследований привлечения информации из WordNet для автоматической рубрикации текстов является дополнение пословного представления документа в виде векторной модели синсетами из WordNet, после чего применяется тот или иной метод машинного обучения.

Одной из первых работ, в которой авторы пытались интегрировать лексическую информацию из WordNet в набор характеристик для машинного обучения, была работа (de Buenaga Rodriguez и др., 1997). В ней было выдвинуто предположение, что обучаемая модель может быть усилена за счет применения синонимов к заголовкам категорий, используемых для рубрикации. Для этого авторы вручную выбрали подходящие синсеты из WordNet. Применялись два метода машинного обучения: метод Rocchio и метод Widrow-Hoff. Эксперименты проводились на коллекции Reuters-21578.

Для обоих методов интегрированное представление документов с учетом названий рубрик и их синонимов дало значимое улучшение, особенно значительным улучшение было на рубриках с малым числом обучающих примеров (<10).

В работе (Scott, Matwin, 1998) WordNet используется для расширения представления документа на базе всех слов документа. Разрешение лексической многозначности не производится, а берутся все синсеты слов, встретившихся в документе. Кроме того, вектор синсетов дополняется гиперонимами. Это дополнение регулируется параметром h - числом шагов обобщения. Использовался алгоритм обучения Ripper. Тестирование на нескольких коллекциях показало, что ни вектор из синсетов (h = 0), ни вектор с одним уровнем обобщения не дали стабильного улучшения на разных коллекциях.

В работе (Jensen, Martinez, 2000) также используются синсеты и гиперонимы, но из всех синсетов многозначного слова выбирается наиболее частотный по коллекции синеет и соответствующий ему гипероним. Три алгоритма машинного обучения использовались для классификации текстов на базе различных комбинаций характеристик: слов, синсетов, синсетов с гиперонимами, биграмм. Эксперименты проводились на трех разных коллекциях. Делается вывод, что использование гиперонимов привело к улучшению показателей автоматической рубрикации на всех коллекциях и, кроме того, использование гиперонимов всегда улучшает показатели по сравнению с применением только исходных синсетов.

В работе (Kehagias и др., 2001) сравнивается качество автоматической рубрикации трех алгоритмов машинного обучения, включая Nai've Bayes и k-NN классификаторы, на Брауновском корпусе, который размечен значениями WordNet. Тексты корпуса разделены на 15 категорий, и, собственно, эту классификацию и должны осуществлять классификаторы. Было отмечено, что результаты всех методов улучшились на множестве синсетов по сравнению с пословной базой обучения, однако это улучшение было слишком незначительным.

Влияние трех разных онтологических ресурсов на качество автоматической рубрикации изучалось в работе (Hotho, Bloehdorn, 2004). Исследовались такие ресурсы, как WordNet, онтология тезауруса в медицинской области MESH (22 тысячи понятий с синонимами и квазисинонимами) и тезаурус по сельскохозяйственной тематике AGROVOC (17 тысяч понятий). Исследование проводилось на базе метода машинного обучения AdaBoost.

Эксперименты на коллекции Reuters для 50 рубрик с наибольшим числом положительных примеров проводились с использованием синсетов и гиперонимов WordNet. На комбинированном представлении слова+синсеты+-+гиперонимы (5 уровней) было получено улучшение меры F1 на 3.29% (макроусреднение) и 2% (микроусреднение), что означает, что увеличение качества рубрикации было больше для рубрик с небольшим числом положительных примеров.

Медицинская онтология применялась для классификации текстов из коллекции OHSUMED. Здесь также использовались 50 рубрик с наибольшим числом примеров. Для обработки этой коллекции использовался также и WordNet. Разные варианты применения WordNet дали увеличение Fl-меры от 2 до 7%. Относительное увеличение Fl-меры на основе медицинской онтологии дало 3-5% на разных прогонах.

Также увеличение Fl-меры было достигнуто на некоторых прогонах для текстов сельскохозяйственной тематики на базе тезауруса AGROVOC (до 10% Fl-меры).

В работе (Mansuy, Hilderman, 2006) исследуется влияние различных типов расширения по отношениям WordNet в задаче отнесения множества документов к одной из двух рубрик. 15 пар рубрик взято из нескольких коллекций, используемых для оценки качества автоматической рубрикации: Reuters-21578, USENET, DigiTrad, Newsgroups. Для экспериментов использовались два классификатора: Naive Bayes и SVM. Были сделаны отдельные прогоны для базовой пословной модели, расширения синонимами, расширения синонимами и гиперонимами, синонимами и гипонимами, синонимами и меронимами, синонимами и холонимами. Все расширения проводились только для существительных. В случае многозначных слов бралось наиболее частотное значение.

Авторы работы получили, что расширение на гипонимы и меронимы (части) дает устойчивое снижение показателя «аккуратности» (accuracy), все остальные расширения не показывают значимого повышения показателя по сравнению с базовым классификатором.

 

Таким образом, на текущий момент разные исследования расходятся в мнениях по поводу того, насколько WordNet и другие онтологические ресурсы могут улучшить качество автоматической рубрикации при использовании их в качестве источника дополнительных знаний для машинного обучения. Некоторые работы показывают небольшое улучшение качества рубрикации, другие - не выявили никакого улучшения качества или выявили неустойчивое улучшение.