Войти



Последние материалы

Серебряные партнеры:

детские игровые спортивные комплексы . Котлы настенные Ferroli: котлы ferroli.

Бронзовые партнеры:

WordNet в вопросно-ответной системе Южного Методистского университета США
Статьи
Автор: Лукашевич Н.В.   
02.11.2011 17:07

WordNet в вопросно-ответной системе Южного Методистского университета США

Одной из самых эффективных систем в вопросно-ответной дорожке конференции TREC-1999 стала вопросно-ответная система Южного Методистского университета, которая на нескольких этапах обработки вопроса и поиска ответа обращается к информации, хранимой в тезаурусе WordNet.

Лексические и семантические замены в системе осуществляются в момент сопоставления формальной структуры вопроса и ответа. Поиск документов организован на основе обработки булевых запросов, в качестве единиц поиска выступают не целые документы, а абзацы (Harabagiu и др., 2000, Moldovan и др., 1999).

На этапе обработки вопроса WordNet используется для определения типа вопроса и типа ответа. Например, если вопрос начинается со слов «what company» - этот вопрос классифицируется как вопрос об организации. При этом на некоторые типы вопросов кандидаты-ответы могут быть получены непосредственно из WordNet. Например, если задан такой вопрос, как «What flowers did Van Gogh paint?» (Какие цветы рисовал Ван Гог), то может быть извлечен список всех 470 видов цветов, упомянутых в WordNet, и использован для поиска подходящего ответа.

Для организации поиска ответов была разработана классификация ответов на вопросы конференции TREC, которая включала такие типы, как: время, дата, продукция, организация, деньги, место, язык, человек.

После этого WordNet был преобразован в таксономию ответов, релевантные синсеты были сгруппированы под своим типом ответа, а нерелевантные синсеты были удалены. В результате полученная таксономия ответов включала 8707 синсетов, 20 верхних типов. Было добавлено 129 отношений, отсутствующих в WordNet, но полезных для ответов на вопрос. Таким образом, в значительной мере для нужд классификации вопросов и ответов на основе информации WordNet был построен новый ресурс, настроенный на вопросы, предлагаемые в рамках конференции TREC. На основе проделанной работы была достигнута правильная идентификация типа ответа для 79% вопросов на конференции TREC-9.

Как уже указывалось, при формулировании запроса к информационной системе часто возникает необходимость удаления некоторых слов формулировки вопроса. Помимо написания (с большой буквы или нет, использование кавычек) и учета частей речи в данной системе используется иерархия WordNet. Для этого вводится понятие специфичности, вычисляемое как количество гипонимов за исключением конкретных имен и гипонимов с тем же главным словом. Если полученное число меньше порога (10), то оно считается специфичным, важным для вопроса, и не отбрасывается. По этому правилу из запроса можно исключить слово город (city) и нельзя исключить слово биохимик (biochemist).

В данной вопросно-ответной системе WordNet совместно с серией булевских запросов используется для подбора необходимых лексических и семантических замен. Например, такая замена нужна для ответа на следующий вопрос:

Вопрос: What is the highest mountain in the world? (Какая самая высокая гора в мире)

Ответ:  ...first African country to send an expedition to Mount Everest, the world's highest peak.

(... первая африканская страна послала экспедицию к Эвересту, самому высокому пику в мире).

При обработке формулировки запроса строится синтаксическая структура предложения, которая называется семантической формой запроса, а также создается булевское выражение, состоящее из слов запроса. Выполняется поиск и отбираются абзацы текста, удовлетворяющие запросу и содержащие, по крайней мере, одно языковое выражение, подходящее по типу к требуемому типу ответа. После этого могут быть инициализированы три цикла расширения запроса.

Первый цикл возникает, если получено слишком мало абзацев. В таких случаях запрос расширяется на основе морфологических форм слов и номинализации глаголов (существительных, являющихся однокоренными к данному глаголу). Такой расширенный запрос опять отправляется в поисковую систему для поиска релевантных абзацев.

Второй цикл расширения возникает, если не удается провести унификацию семантических форм вопроса и ответа. В таких случаях добавляются синонимы, прямые гипонимы и гиперонимы. Расширенный булевский запрос опять отправляется в поисковую систему. Например, при обработке вопроса Who killed Martin Luther King? (Кто убил Мартина Лютера Кинга) делается цепочка вывода Kill killer -гипоним- assassin, которая позволяет найти правильный ответ.

Третий цикл расширения возникает, если не удается доказать правильность ответа. На этом шаге делается расширение запроса на основе толкований синсетов WordNet. Например, для ответа на вопрос: Where do lobsters like to live? (Где предпочитают .жить лобстеры?) удалось использовать главное слово в толковании глагола prefer - like. Был задан булев запрос «(lobster OR lobsters) AND (like OR prefer)» и получен правильный ответ.

По материалам оценки поиска ответов на вопросы TREC было подсчитано, что при возвращении короткого 50-байтного ответа были получены следующие улучшения:

- Цикл 1 - 40% -Цикл 2 - 52% -ЦиклЗ - 8% -Всего      -   76%