| Эксперименты по семантическому индексированию на базе европейских ворднетов |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 02.11.2011 16:30 | |||
Эксперименты по семантическому индексированию на базе европейских ворднетовВ рамках европейского проекта Meaning, который является развитием проекта Euro WordNet, голландская компания Irion Technologies разработала технологию концептуального индексирования TwentyOne, комбинирующую лин¬гвистический и статистический подходы (Vossen и др., 2006). Авторы разработки считают, что неудачи с использованием WordNet в информационно-поисковых приложениях связаны с трудностями встраивания такого рода лингвистических ресурсов в приложения, оптимального использования содержащейся в ворднетах информации. Основой технологии является статистическая машина поиска, базирующаяся на стандартной векторной модели и обеспечивающая быстрый поиск документов. Лингвистические технологии используются в двух ролях: - максимизация полноты выдачи статистической машины за счет синонимии ворднетов; - максимизация точности выдачи за счет сравнения запросов с конкретными фразами документов, а не с целыми документами. Фраза представляет собой именную группу (noun phrase). Каждая фраза ассоциируется с отдельными словами, определенной комбинацией слов, а также комбинацией частей слов. Система TwentyOne использует совокупность факторов для сравнения запроса с фразами текста: 1. число совпадающих синсетов между запросом и каждой фразой, 2. степень нечеткого сопоставления между запросом и каждой фразой, 3. степень деривационного несовпадения, слитного или раздельного написания и т. п., 4. были ли использованы синонимы, 5. был ли использован тот же язык. При обработке запроса сначала с помощью векторной модели находятся документы, соответствующие запросу. Затем выданные документы переранжируются так, что сначала выдаются документы, которые имеют наибольшее совпадение по синсетам фраз с запросом. Среди документов, имеющих одинаковое количество сопоставленных синсетов между собственными фразами и запросом, первыми выдаются наиболее похожие по конкретному набору слов. Вес документа по векторной модели используется, если вес по фразам текста получился одинаковым. Разрешение многозначности в данной системе делается на основе технологии, описанной в (Magnini и др., 2002), и базируется на разметке предметных областей WordNet (см. Отсутствие отношений между частями речи). Система разрешения лексической многозначности сначала настраивается на наборы слов, относящихся к той или иной предметной области, на основе разметки, осуществленной в WordNet. При обработке конкретного документа система сначала присваивает предметную область документу в целом, так называемые микротэги. Затем классифицирует отдельные именные группы внутри контекстного окна величиной в 10 именных групп. В результате этот фрагмент получает один или более тэгов (нанотэги). При разрешении многозначности конкретного слова сначала выбираются значения, соответствующие нанотэгам. Если нет соответствия с нанотэгами, выбираются значения, соответствующие микротэгам. Если никаких соответствий не обнаружено, выбираются все значения. Приводятся данные, что с помощью данной системы разрешения многозначности удалось сократить количество значений на основе целого текста: для испанского языка - на 48%, для английского языка - на 57%. В случае использования контекстных окон сокращения выше: 52% для испанского языка и 65% для английского. При этом подчеркивается, что большинство сокращений относятся к словам из области Factotum (см. Теннисная проблема» в WordNet), то есть словам, не относящимся к конкретным предметным областям, таким как быть, начинаться, человек. В проводимых экспериментах для сравнения были построены четыре индекса: 1. НТМ - традиционный пословный индекс; 2. NP - индексы именных групп из запроса, с использованием пословных методов, без использования ворднетов; 3. FULL - полные индексы с использованием ворднетов, но без процедуры разрешения многозначности, что приводит к полному расширению по синонимам и переводам для всех возможных значений слов запроса; 4.WSD - индексы, использующие ворднеты вместе с описанной выше процедурой снижения многозначности на основе предметных областей ворднет. Полученные индексы тестировались при поиске по документам коллекции Reuter и по коллекции подписей к картинкам в ресурсе Fototeca (Vossen и др., 2005). Базовыми языками для тестирования являются английский и испанский. Запросы для тестирования извлекались из самих документов, кроме того, в качестве запросов использовались также запросы, полученные синонимической заменой слов из исходных запросов. Из результатов тестирования авторы делают вывод о полезности тезаурусов типа WordNet для информационного поиска, однако из-за специфической процедуры формирования тестового набора запросов трудно оценить, насколько этот вывод обоснован в данных экспериментах. Tags: Эксперименты по семантическому индексированию на базе европейских ворднетов Тезаурусы в информационном поиске
|