Войти



Последние материалы

Золотые партнеры:

www.remen.ru - продаем недорогие рукава высокого давления. Консультация специалистов

Серебряные партнеры:

Самоходные бензиновые газонокосилки. Купить бензиновые газонокосилки. . Таких цен больше не будет: фронтальные погрузчики цена. Вилочные погрузчики в Пензе.

Бронзовые партнеры:

Влияние качества разрешения лексической многозначности на информационный поиск
Статьи
Автор: Лукашевич Н.В.   
02.11.2011 16:34

Влияние качества разрешения лексической многозначности на информационный поиск

Ошибки в работе автоматической процедуры разрешения лексической многозначности могут привести к значительному снижению качества информационного поиска, как это и было показано в экспериментах H.Voorhees (Voorhees, 1994). В ряде исследований выяснялись вопросы о том, каков должен быть размер такой ошибки, чтобы качество информационного поиска не снизилось.

В работе (Stevenson, 1994) автор вводит в коллекцию искусственную многозначность и тем самым может контролировать процент ее ошибочного разрешения. В исследовании было показано, что при качестве разрешения многозначности хуже 90% эффективность информационного поиска начинает резко снижаться.

В исследовании (Gonzalo и др., 1998) авторы ставят перед собой две задачи:

1)      Если абстрагироваться от проблемы разрешения многозначности, то какой потенциал несет использование ресурсов типа WordNet для информационного поиска? Такой эксперимент можно выполнить, если сделать вручную разрешение лексической многозначности запросов и документов.

2)      Если эффективность использования WordNet для коллекции с разрешенной многозначностью известна, то можно измерить чувствительность качества информационного поиска к ошибкам разрешения многозначности, искусственно внося некоторый процент ошибок в разметку по значениям.

 

Исследования выполнялись на корпусе SemCor, размеченного значениями WordNet. Были выбраны 171 текстовых фрагментов со средней длиной 1331 слов на документ. Для каждого текста была написана краткая аннотация длиной от 4 до 50 слов, в среднем 22 слова на документ. Эти аннотации использовались как запросы по текстовой коллекции, то есть был ровно 1 релевантный документ на запрос. Аннотации также были размечены по значениям WordNet. На основе стандартного списка стоп-слов английского языка был также автоматически порожден список стопсинсетов.

В экспериментах использовалась векторная модель в версии информационно-поисковой системы SMART (Salton, 1989) и три типа векторов: исходные слова документа, значения слов, соответствующие словам документа, и синсеты WordNet, соответствующие словам документа (в последнем случае фактически производится дополнение документа синонимами слов). В процессе эксперимента выяснялось, какой процент релевантных документов был возвращен на первом месте в выдаче.

Эксперименты показали, что стандартная векторная модель дает 48% первых релевантных документов, индексирование по значениям слов - 53.2% и индексирование по синсетам - 62%.

Внесение ошибок разрешения многозначности в индексирование по синсетам показало, что 10% ошибок не влияет на качество поиска, что находится в соответствии с работой (Sanderson, 1994). При этом выяснилось, что при уровне 30% ошибок качество поиска превосходит поиск по стандартной модели SMART (54.4%)). Таким образом, авторы делают вывод, что если выполнять разрешение многозначности с точностью больше 70%, то это даст преимущество по сравнению с пословными векторными моделями. Важно, однако, заметить, что за прошедшее время векторные модели значительно усложнились, включая поиск близких по тексту терминов, поиск по абзацам и др.

Влияние автоматического разрешения лексической многозначности на качество информационного поиска изучалось и в рамках конференции SemEval-2007 (http://nlp.cs.swarthmore.edu/semeval/), одним из заданий которой является применение алгоритмов разрешения многозначности в процессе поиска документов (Agirre и др., 2007). Суть задания заключается в следующем: все участники должны выполнять поиск на одной и той же поисковой машине, однако перед поиском необходимо расширить запросы или тексты синонимами или переводами, соответствующими выбранным значениям.

Было предложено три подзадания:

-        информационный поиск с автоматическим разрешением многозначности запроса - системы должны автоматически разрешить многозначность слов запроса, расширить запрос синонимами, соответствующими этим значениям, и выполнить расширенный поисковый запрос. Документы и запросы на английском языке;

-        информационный поиск с автоматическим разрешением многозначности документа - системы должны автоматически разрешить многозначность слов в документах, расширить документы синонимами, соответствующими этим значениям,   и выполнить поиск на основе исходного поискового запроса; - двуязычный поиск (с испанского на английский) - для документов автоматически производится разрешение многозначности, документы переводятся в соответствии с полученными результатами разрешения и затем выполняется поиск с использованием исходного поискового запроса. Результаты систем сравниваются с базисными уровнями: поиск без расширений (noехр) и поиск с полным расширением - запросы расширяются синонимами, соответствующими всем возможным значениям (expall).

В проведенных экспериментах в одноязычном поиске лучший результат был получен при поиске без расширения синонимами noехр - 0.3599 MAP, в двуязычном информационном поиске использованием переводов по всем значениям expall - 0.2617 MAP.

Таким образом, в первом проведенном соревновании с использованием методов автоматического разрешения многозначности системам не удалось получить результаты, превышающие результаты методов, не использующих процедуру автоматического разрешения многозначности. Организаторы тестирования связывают часть проблем с выбранной базовой системой поиска и намерены продолжать исследования роли автоматического разрешения многозначности в информационном поиске.