Войти



Последние материалы

Золотые партнеры:

Закажи отдых в Крыме: Крым отдых частный сектор.

Серебряные партнеры:

Средства от морщин, химический пилинг лица. Пилинг кожи.

Бронзовые партнеры:

Эксперименты по семантическому индексированию на базе европейских ворднетов
Статьи
Автор: Лукашевич Н.В.   
02.11.2011 16:30

Эксперименты по семантическому индексированию на базе европейских ворднетов

В рамках европейского проекта Meaning, который является развитием проекта Euro WordNet, голландская компания Irion Technologies разработала технологию концептуального индексирования TwentyOne, комбинирующую лин¬гвистический и статистический подходы (Vossen и др., 2006). Авторы разработки считают, что неудачи с использованием WordNet в информационно-поисковых приложениях связаны с трудностями встраивания такого рода лингвистических ресурсов в приложения, оптимального использования содержащейся в ворднетах информации.

Основой технологии является статистическая машина поиска, базирующаяся на стандартной векторной модели и обеспечивающая быстрый поиск документов.

Лингвистические технологии используются в двух ролях:

-        максимизация полноты выдачи статистической машины за счет синонимии ворднетов;

-        максимизация точности выдачи за счет сравнения запросов с конкретными фразами документов, а не с целыми документами. Фраза представляет собой именную группу (noun phrase). Каждая фраза ассоциируется с отдельными словами, определенной комбинацией слов, а также комбинацией частей слов.

Система TwentyOne использует совокупность факторов для сравнения запроса с фразами текста:

1. число совпадающих синсетов между запросом и каждой фразой,

2.      степень нечеткого сопоставления между запросом и каждой фразой,

3.      степень деривационного несовпадения, слитного или раздельного

написания и т. п.,

4.      были ли использованы синонимы,

5.      был ли использован тот же язык.

При обработке запроса сначала с помощью векторной модели находятся документы, соответствующие запросу. Затем выданные документы переранжируются так, что сначала выдаются документы, которые имеют наибольшее совпадение по синсетам фраз с запросом. Среди документов, имеющих одинаковое количество сопоставленных синсетов между собственными фразами и запросом, первыми выдаются наиболее похожие по конкретному набору слов. Вес документа по векторной модели используется, если вес по фразам текста получился одинаковым.

Разрешение многозначности в данной системе делается на основе технологии, описанной в (Magnini и др., 2002), и базируется на разметке предметных областей WordNet (см. Отсутствие отношений между частями речи).

Система разрешения лексической многозначности сначала настраивается на наборы слов, относящихся к той или иной предметной области, на основе разметки, осуществленной в WordNet. При обработке конкретного документа система сначала присваивает предметную область документу в целом, так называемые микротэги. Затем классифицирует отдельные именные группы внутри контекстного окна величиной в 10 именных групп. В результате этот фрагмент получает один или более тэгов (нанотэги).

При разрешении многозначности конкретного слова сначала выбираются значения, соответствующие нанотэгам. Если нет соответствия с нанотэгами, выбираются значения, соответствующие микротэгам. Если никаких соответствий не обнаружено, выбираются все значения.

Приводятся данные, что с помощью данной системы разрешения многозначности удалось сократить количество значений на основе целого текста: для испанского языка - на 48%, для английского языка - на 57%. В случае использования контекстных окон сокращения выше: 52% для испанского языка и 65% для английского. При этом подчеркивается, что большинство сокращений относятся к словам из области Factotum (см. Теннисная проблема» в WordNet), то есть словам, не относящимся к конкретным предметным областям, таким как быть, начинаться, человек.

В проводимых экспериментах для сравнения были построены четыре индекса:

1.      НТМ - традиционный пословный индекс;

2.      NP - индексы именных групп из запроса, с использованием пословных методов, без использования ворднетов;

3. FULL - полные индексы с использованием ворднетов, но без процедуры  разрешения  многозначности,  что  приводит  к  полному расширению по синонимам и переводам для всех возможных значений слов запроса; 4.WSD - индексы, использующие ворднеты вместе с описанной выше процедурой снижения многозначности на основе предметных областей ворднет. Полученные индексы тестировались при поиске по документам коллекции Reuter и по коллекции подписей к картинкам в ресурсе Fototeca (Vossen и др., 2005). Базовыми языками для тестирования являются английский и испанский. Запросы для тестирования извлекались из самих документов, кроме того, в качестве запросов использовались также запросы, полученные синонимической заменой слов из исходных запросов. Из результатов тестирования авторы делают вывод о полезности тезаурусов типа WordNet для информационного поиска, однако из-за специфической процедуры формирования тестового набора запросов трудно оценить, насколько этот вывод обоснован в данных экспериментах.