Войти



Советуем прочесть

Последние материалы

Золотые партнеры:

Бу мебель в Новосибирске: объявление

Серебряные партнеры:

Установка сантехники: подать объявление в интернет . Подать объявление в интернете - недвижимость Барнаула

Бронзовые партнеры:

Автоматическое индексирование по информационно-поисковым тезаурусам
Статьи
Автор: Лукашевич Н.В.   
03.10.2011 14:52

Автоматическое индексирование по информационно-поисковым тезаурусам.

Поскольку основными элементами информационно-поискового тезауруса являются термины предметной области, описанные как дескрипторы и аскрипторы, то может показаться, что осуществить сопоставление информационно-поискового тезауруса и документа достаточно просто путем непосредственного сопоставления единиц тезауруса с документами.

Однако для большинства документов такое автоматическое сопоставление не сможет отразить основное содержание документа:

-        важные термины документа могут быть не найдены в тезаурусе, поскольку выражены в нем несколько иначе,

-        менее значимые термины найдут прямое отражение в тезаурусе и выйдут на первый план и т.п.

В работе (Pouliquen и др., 2003) приводятся данные, полученные на основе 587 документов, проиндексированных вручную дескрипторами тезауруса EUROVOC. Только 31% документов явно содержит в тексте дескрипторы, приписанные документу индексаторами. При этом в 9 из 10 случаев дескрипторы, найденные в тексте документа, не приписаны индексаторами. Поэтому исследуются более сложные методы автоматизации индексирования по информационно-поисковым тезаурусам.

В работе (Hlava, Heinebach, 1996) излагается подход к автоматическому индексированию по тезаурусу EUROVOC, основанному на правилах. Правила могут быть простыми и сложными. Простые правила не содержат условий. Сложные правила содержат такие условия, как Близость (на расстоянии трех слов по тексту, в одном предложении, в том же самом поле, например поле реферата), Местонахождение (в заголовке, в тексте реферата или документа, начало предложения, конец предложения), Формат (с большой буквы, все большими буквами).

 

Примеры сложных правил:

IF (near "Technology" AND with "Development") USE Community programme USE development aid

END1F

IF (near "Technology" AND with "Regional Innovation" AND with "Devel¬opment")

USE Community programme USE common regional policy USE technology transfer

ENDIF

Основная процедура создания сложных правил состоит в следующем:

-        создается множество простых правил, заключающихся в представлении дескрипторов и синонимов тезауруса EUROVOC в виде текстовых строк;

-        на основе простых правил обрабатываются документы Европейского парламента; автоматически полученные дескрипторы сравниваются с наборами дескрипторов EUROVOC, проставленных вручную индексаторами;

-        простые правила, производящие слишком много шума, то есть проставляющие дескрипторы автоматически значительно чаще, чем ставят люди, преобразуются в сложные правила, путем снабжения их дополнительными условиями.

Всего было создано около 40 тысяч правил.

 

При обработке текста отбираются 20 наиболее частотных дескрипторов, порожденных по документу, они и рассматриваются как автоматически приписанные дескрипторы. Для оценки качества работы описанной системы автоматического индексирования для разных типов документов проводилось сравнение с наборами дескрипторов, приписанных вручную. Приводятся данные, что было показано 42% полноты автоматического индексирования.

Архивы поисковых образов документов могут быть использованы для реализации статистических методов автоматического индексирования по информационно-поисковым тезаурусам.

В работе (Steinberger и др., 2000) автоматическое приписывание дескрипторов тезауруса EUROVOC полнотекстовым документам основывается на предварительном нахождении соответствия между словами документа и дескрипторами тезауруса на основе статистических мер (chi-square или log-likelihood) (Manning, Shutze, 1999). Вес соответствия отдельного слова ключевому слову тем выше, чем выше совместная частотность использования данного слова и данного ключевого слова относительно частотности во всей коллекции. Например, дескриптору тезауруса FISHERY MANAGEMENT (управление рыболовством) соответствуют следующие слова (в порядке убывания веса): fishery, fish, stock, fishing, conservation, management, vessel и т. д.

На второй стадии (собственно индексирование) для каждого слова документа проверяется, каким дескрипторам тезауруса оно соответствует. Если такие дескрипторы имеются, то слово добавляет к весу дескриптора для данного текста натуральный логарифм веса, полученного на первом этапе. После обработки всех слов текущего текста получается суммированный вес дескрипторов тезауруса. Например, для Резолюции по правам языковых и культурных меньшинств в Европейском союзе были получены следующие дескрипторы (в порядке убывания веса). Community programme, Young person, cultural policy, CEEC, European Union и т. д.

 

В статье (Pouliquen и др., 2003) для автоматического индексирования по тезаурусу EUROVOC процедура автоматического индексирования рассматривается как процедура определения сходства векторов, один из которых -вектор слова текста, а второй - вектор слов, ассоциированных с дескрипторами тезауруса, по одной из статистических мер совместной встречаемости в документе и его поисковом образе (частотность, нормализованная частотность, log-likelihood). Для процедуры сопоставления векторов использовались такие меры, как формула косинусов (Salton, 1989), формула OKAPI (Robertson и др., 1994), скалярного произведения (формула косинусов без нормализации), линейные комбинации этих формул.

При сравнении результатов с дескрипторами, приписанными людьми для 6 дескрипторов, получивших наиболее высокий вес, были получены следующие результаты: точность - 46.2%, полнота - 49.9%, F-мера -48.0%.

Также в рамках этой работы был выполнен эксперимент по вторичному индексированию человеком. Было получено, что согласие между индексаторами находилось в пределах 74-84% для английских и испанских текстов.

В работе (Montejo-Raez и др., 2004) задача приписывания документам дескрипторов информационно-поискового тезауруса рассматривается как задача автоматической рубрикации, в которой рубрикатором является набор дескрипторов тезауруса. Предлагается использовать подходы машинного обучения, при которых в качестве положительных примеров приписывания конкретного дескриптора рассматриваются документы, которым индексаторы приписали этот дескриптор, и как отрицательные примеры - документы, которым данный дескриптор не приписан.

Эксперименты проводились на коллекции рефератов по ядерной физике, использовался тезаурус DESY.