Войти



Советуем прочесть

Последние материалы

Золотые партнеры:

авто в Красноярске

Серебряные партнеры:

Работа в Астрахани - доска объявлений . Работа в Томске - объявления из рук в руки

Бронзовые партнеры:

Сочетание свободных запросов и запросов на основе информационно-поисковых тезаурусов.
Статьи
Автор: Лукашевич Н.В.   
03.10.2011 15:30

Сочетание свободных запросов и запросов на основе информационно-поисковых тезаурусов.

В настоящее время в мире существует много информационных систем, предоставляющих пользователям как возможности поиска информации по свободному запросу на естественном языке, так и с помощью дескрипторов информационно-поисковых тезаурусов, сопоставленных документам профессиональными индексаторами.

Одним из направлений использования поисковых образов документов является привлечение этой информации при обработке свободных запросов пользователей, сформулированных на естественном языке. Первым шагом на таком пути может быть нахождение корреляций между словами документов и дескрипторами тезауруса или рубриками рубрикатора (Plaunt, Norgard, 1998).

Появление таких корреляций дает возможность при обработке свободного запроса пользователя определить наиболее соответствующие этому запросу рубрики и/или дескрипторы и предложить их пользователю, который может тем или иным образом включить их в запрос. Например, можно сложить веса дескрипторов (рубрик), соответствующих каждому слову запроса, и получить упорядоченный список наиболее релевантных запросу дескрипторов (рубрик) (French и др., 2002).

Так, если пользователь ищет по запросу струйные принтеры в информационной системе, в которой документы прорубрицированы по американскому рубрикатору «Стандартная промышленная классификация», то такая обработка запроса позволит показать наиболее соответствующие запросу рубрики, такие как: Офисная техника и детали, Инструменты для измерения и тестирования электричества и сигналов, Чернила для принтеров.

Тезаурусные поисковые образы документов могут быть использованы и для автоматического расширения свободного запроса пользователя дескрипторами тезауруса (Petras, 2004; Petras, 2005). Описанные в данной работе эксперименты проводились на двуязычной коллекции немецких и английских документов по общественным наукам. База содержит более 150 тысяч немецких документов и 26 тысяч английских документов. Документы реферативного характера содержат заголовок публикации, реферат и дескрипторы Тезауруса по общественным наукам (Schott, 2000), приписанные индексаторами. Эксперименты выполнялись в рамках предметно-ориентированного задания форума по многоязыковым информационным системам CLEF (Kluck, 2003).

Для каждого слова запроса выявлялись два наиболее коррелирующих с этим словом дескриптора тезауруса и добавлялись в запрос. Было получено, что в этом случае исходные показатели эффективности поиска для 25 запросов (средняя точность - см. п. 11.2) возросли с 45.47% до 51.44%, то есть более чем на 13 процентов, для немецкого языка и с 45.13% до 48.18% для английского языка.