| Автоматическое индексирование по информационно-поисковым тезаурусам |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 03.10.2011 14:52 | |||
Автоматическое индексирование по информационно-поисковым тезаурусам.Поскольку основными элементами информационно-поискового тезауруса являются термины предметной области, описанные как дескрипторы и аскрипторы, то может показаться, что осуществить сопоставление информационно-поискового тезауруса и документа достаточно просто путем непосредственного сопоставления единиц тезауруса с документами. Однако для большинства документов такое автоматическое сопоставление не сможет отразить основное содержание документа: - важные термины документа могут быть не найдены в тезаурусе, поскольку выражены в нем несколько иначе, - менее значимые термины найдут прямое отражение в тезаурусе и выйдут на первый план и т.п. В работе (Pouliquen и др., 2003) приводятся данные, полученные на основе 587 документов, проиндексированных вручную дескрипторами тезауруса EUROVOC. Только 31% документов явно содержит в тексте дескрипторы, приписанные документу индексаторами. При этом в 9 из 10 случаев дескрипторы, найденные в тексте документа, не приписаны индексаторами. Поэтому исследуются более сложные методы автоматизации индексирования по информационно-поисковым тезаурусам. В работе (Hlava, Heinebach, 1996) излагается подход к автоматическому индексированию по тезаурусу EUROVOC, основанному на правилах. Правила могут быть простыми и сложными. Простые правила не содержат условий. Сложные правила содержат такие условия, как Близость (на расстоянии трех слов по тексту, в одном предложении, в том же самом поле, например поле реферата), Местонахождение (в заголовке, в тексте реферата или документа, начало предложения, конец предложения), Формат (с большой буквы, все большими буквами).
Примеры сложных правил: IF (near "Technology" AND with "Development") USE Community programme USE development aid END1F IF (near "Technology" AND with "Regional Innovation" AND with "Devel¬opment") USE Community programme USE common regional policy USE technology transfer ENDIF Основная процедура создания сложных правил состоит в следующем: - создается множество простых правил, заключающихся в представлении дескрипторов и синонимов тезауруса EUROVOC в виде текстовых строк; - на основе простых правил обрабатываются документы Европейского парламента; автоматически полученные дескрипторы сравниваются с наборами дескрипторов EUROVOC, проставленных вручную индексаторами; - простые правила, производящие слишком много шума, то есть проставляющие дескрипторы автоматически значительно чаще, чем ставят люди, преобразуются в сложные правила, путем снабжения их дополнительными условиями. Всего было создано около 40 тысяч правил.
При обработке текста отбираются 20 наиболее частотных дескрипторов, порожденных по документу, они и рассматриваются как автоматически приписанные дескрипторы. Для оценки качества работы описанной системы автоматического индексирования для разных типов документов проводилось сравнение с наборами дескрипторов, приписанных вручную. Приводятся данные, что было показано 42% полноты автоматического индексирования. Архивы поисковых образов документов могут быть использованы для реализации статистических методов автоматического индексирования по информационно-поисковым тезаурусам. В работе (Steinberger и др., 2000) автоматическое приписывание дескрипторов тезауруса EUROVOC полнотекстовым документам основывается на предварительном нахождении соответствия между словами документа и дескрипторами тезауруса на основе статистических мер (chi-square или log-likelihood) (Manning, Shutze, 1999). Вес соответствия отдельного слова ключевому слову тем выше, чем выше совместная частотность использования данного слова и данного ключевого слова относительно частотности во всей коллекции. Например, дескриптору тезауруса FISHERY MANAGEMENT (управление рыболовством) соответствуют следующие слова (в порядке убывания веса): fishery, fish, stock, fishing, conservation, management, vessel и т. д. На второй стадии (собственно индексирование) для каждого слова документа проверяется, каким дескрипторам тезауруса оно соответствует. Если такие дескрипторы имеются, то слово добавляет к весу дескриптора для данного текста натуральный логарифм веса, полученного на первом этапе. После обработки всех слов текущего текста получается суммированный вес дескрипторов тезауруса. Например, для Резолюции по правам языковых и культурных меньшинств в Европейском союзе были получены следующие дескрипторы (в порядке убывания веса). Community programme, Young person, cultural policy, CEEC, European Union и т. д.
В статье (Pouliquen и др., 2003) для автоматического индексирования по тезаурусу EUROVOC процедура автоматического индексирования рассматривается как процедура определения сходства векторов, один из которых -вектор слова текста, а второй - вектор слов, ассоциированных с дескрипторами тезауруса, по одной из статистических мер совместной встречаемости в документе и его поисковом образе (частотность, нормализованная частотность, log-likelihood). Для процедуры сопоставления векторов использовались такие меры, как формула косинусов (Salton, 1989), формула OKAPI (Robertson и др., 1994), скалярного произведения (формула косинусов без нормализации), линейные комбинации этих формул. При сравнении результатов с дескрипторами, приписанными людьми для 6 дескрипторов, получивших наиболее высокий вес, были получены следующие результаты: точность - 46.2%, полнота - 49.9%, F-мера -48.0%. Также в рамках этой работы был выполнен эксперимент по вторичному индексированию человеком. Было получено, что согласие между индексаторами находилось в пределах 74-84% для английских и испанских текстов. В работе (Montejo-Raez и др., 2004) задача приписывания документам дескрипторов информационно-поискового тезауруса рассматривается как задача автоматической рубрикации, в которой рубрикатором является набор дескрипторов тезауруса. Предлагается использовать подходы машинного обучения, при которых в качестве положительных примеров приписывания конкретного дескриптора рассматриваются документы, которым индексаторы приписали этот дескриптор, и как отрицательные примеры - документы, которым данный дескриптор не приписан. Эксперименты проводились на коллекции рефератов по ядерной физике, использовался тезаурус DESY. Tags: Автоматическое индексирование по информационно-поисковым тезаурусам Информационно-поисковые тезаурусы в приложениях автоматической обработки документов тезаурусы
|