Войти



Последние материалы

Золотые партнеры:

Серебряные партнеры:

Бронзовые партнеры:

Общественно-политический тезаурус как поисковое средство в Университетской информационной системе Россия
Статьи
Автор: Лукашевич Н.В.   
29.01.2012 14:05

Общественно-политический тезаурус как поисковое средство в Университетской информационной системе Россия

Общественно-политический тезаурус используется как поисковое средство в Университетской информационной системе Россия (www.cir.ru), которая создана и развивается как тематическая электронная библиотека и база для исследований и учебных курсов в области экономики, управления, социологии, лингвистики, философии, филологии, международных отношений и других гуманитарных наук (Богомолова и др., 2008).

Пользователь может задать булев запрос, включающий как слова, так и понятия тезауруса. Понятие тезауруса может быть задано без расширения по дереву. Тогда в ответ на запрос будут выданы документы, содержащие хотя бы одно из текстовых выражений, сопоставленных данному понятию. Если понятие тезауруса задано с расширением по дереву, то релевантными считаются документы, содержащие хотя бы один синоним выбранного понятия или (с несколько меньшим весом) хотя бы один синоним понятий из дерева-вниз выбранного понятия. Таким образом, включение в запрос одного понятия может оказаться равносильным включению сотен и тысяч слов и слово-сочетаний.

Поэтому поиск с использованием тезауруса состоит из следующей последовательности шагов:

-        поиск нужного понятия;

-        выбор подходящего условия включения понятия в запрос;

-        выбор следующего понятия или исполнение запроса.

Для поиска по тезаурусу пользователь выбирает из списка общих атрибутов опцию «Тезаурус ЦИИ», вводит в крайнем правом окне термин (в данном случае было введено слово «миграция») и нажимает на кнопку «список». Появляется список понятий тезауруса, где хотя бы один термин содержит введенное слово (рис. 20.1).

Пользователь выбирает наиболее подходящее понятие, например ВЫНУЖДЕННАЯ МИГРАЦИЯ НАСЕЛЕНИЯ, и задает правило учета этого понятия в условиях запроса с помощью клавиш, расположенных слева:

+ - строго данное понятие,

+t - понятие с расширением по дереву,

исключить термин,

-t - исключить термин и нижестоящие понятия.

Рис. 20.1. Поиск подходящего понятия тезауруса для запроса «вынужденная миграция населения»

В ситуации, изображенной на рис. 20.1-1, пользователь выбрал кнопку "+t" (рис.20.1-2). В окне запроса появляется новое условие (рис. 20.1-3):

/Термин_расш=ВЫНУЖДЕННАЯ МИГРАЦИЯ НАСЕЛЕНИЯ

Этот прием избавляет от процедуры ввода длинных строк в условия запроса. Теперь, если пользователь нажимает на клавишу «искать», то система выдает документы, содержащие один из терминов:

-        насильственное выселение,

-        насильственное переселение,

-        вынужденная миграция',

или термины, приписанные подчиненным понятиям БЕЖЕНЕЦ (беженка, беженский), ВЫНУЖДЕННЫЕ ПЕРЕСЕЛЕНЦЫ {вынужденный мигрант) и т. д.

Использование опции «расширение по дереву тезауруса» при поиске с использованием географических названий позволяет найти все географические названия и административные единицы. При поиске по термину ЮГО-ВОСТОЧНАЯ СИБИРЬ будут выданы также документы, содержащие: БАЙКАЛ, ЗАБАЙКАЛЬЕ, БУРЯТИЯ, ЧИТИНСКАЯ ОБЛАСТЬ, ПРИБАЙКАЛЬЕ и т. д.

Особенно эффективных результатов поиска удается добиваться, формируя запрос из нескольких понятий с расширением по дереву. В частности, можно эффективно найти документы следующей тематики:

/Термин_расш=«ПРЕСТУПНОСТЬ» and   /Термин_расш=  «СИБИРСКИЙ ФЕДЕРАЛЬНЫЙ ОКРУГ»

или, например,

/Термин_расш=«МИГРАЦИЯ» and   /Термин_расш=  «АМУРСКАЯ ОБЛАСТЬ»

На рис. 20.2 приведен пример статьи, найденной по понятию СУПРУЖЕСТВО с расширением по дереву. В статье встречаются термины брак, бракосочетание, жених и невеста, сваха. При этом само слово супружество в документе не встречается. Найденные в документе термины подсвечиваются: красным цветом - синонимы понятия, использованного в запросе, фиолетовым цветом -синонимы подчиненных понятий.

Запрос может быть также уточнен путем просмотра тезаурусной статьи понятия (рис. 20.3), которая получается при переходе по ссылке, связанной с понятием. При этом пользователь, "двигаясь" по связям между понятиями, может выбрать более подходящую ему тематику, тем самым уточнить смысл своего запроса

Рис. 20.3. Тезаурусная статья для понятия ВЫНУЖДЕННАЯ МИГРАЦИЯ НАСЕЛЕНИЯ

При формировании выдачи документов на запрос происходит выявление наиболее характерных для данной выдачи понятий тезауруса, которые выдаются в колонку справа (рис. 20.4). В разных системах выдача такого рода называется ассоциативный контекст, информационный портрет (см., например, (Антонов, Курзинер, 2003)), информер. Понятия тезауруса в информере упорядочиваются на основе веса, полученного по формуле типа tPidf, когда частотность упоминания понятия в выдаче сопоставляется с частотностью упоминания понятия в коллекции.

Понятия тезауруса в информере также снабжены кнопками добавления в запрос, что позволяет одним нажатием мыши модифицировать запрос так, чтобы учесть в запросе или исключить из него данное понятие.

Рис. 20.4. Выдача информера по запросу брак