Войти



Последние материалы

Золотые партнеры:

Интернет-магазин мебели: элитная итальянская мебель. Выставка Мебель. Интерьер. Дизайн.

Серебряные партнеры:

Купить ежедневник 2011 в Москве - ежедневники. Аксессуары из кожи. . пылесос сухая самый дорогой

Бронзовые партнеры:

Основные этапы обработки вопросов в вопросно-ответных системах
Статьи
Автор: Лукашевич Н.В.   
02.11.2011 17:05

Основные этапы обработки вопросов в вопросно-ответных системах

Основными этапами поиска ответа на вопрос в современных вопросно-ответных системах являются следующие (см. рис. 12.1).

Прежде всего, производится подробный анализ вопроса, в результате которого определяется тип вопроса (вопрос времени, места, количества и другие) и соответствующий тип ответа, а также формируется запрос к информационно-поисковой системе.

На втором этапе производится поиск релевантных документов или абзацев информационно-поисковой системой, формируется упорядоченный список наиболее релевантных документов (абзацев), из которого выбирается первых п (например, п = 100-1000) документов (абзацев) для дальнейшей обработки.

На третьем этапе производится подробный анализ полученных абзацев: содержит ли абзац требуемый тип ответа, близость слов ответа и вопроса, сходство синтаксических структур и т. п. В ходе такого анализа полученные абзацы оцениваются по мере возможности вхождения в них ответа на заданный вопрос и переупорядочиваются на основе полученных оценок.

Обработка поискового запроса в рамках вопросно-ответной системы имеет свою специфику по сравнению с обработкой типичного запроса при поиске в Интернет. Как известно, запросы в глобальных информационно-поисковых системах обычно очень короткие, 2-3 слова, и по ним находятся сотни и тысячи документов. Запросы в форме вопросов обычно значительно длиннее, поэтому если требовать присутствия в документе сразу всех слов запроса, то чаще всего не будет найдено ни одного документа, что означает, что поисковая система должна автоматически определить, какие слова такого запроса должны быть отброшены или заменены.

Классическая векторная модель на основе сравнения векторов запроса и документа позволяет найти наиболее релевантные документы и по частичному совпадению слов запроса и документа (Сегалович, Маслов, 2004). Однако при формальном выполнении пословных векторых моделей важные для ответа слова вопроса могут быть автоматически отброшены, поэтому в некоторых современных исследованиях по вопросно-ответным системам стали использоваться не векторные модели поиска, а выполняется булев поиск.

Использование булевой модели поиска, которая обычно считается менее качественной, чем векторная модель, связано с тем, что при выполнении задачи сокращения формулировки запроса необходимо осуществлять дополнительный контроль, какие слова формулировки вопроса обязательно должны присутствовать в тексте ответа, а какие могут пропасть в тексте ответа с минимальным ущербом для релевантности ответа (Harabagiu и др., 2000; Kupiec, 1993; Hovy и др., 2001). Так, в своем докладе на семинаре ELECTRA 2005 (Vechtomova и др., 2005) известный американский исследователь в области информационного поиска Брюс Крофт отметил, что тогда как для коротких запросов хорошо работают пословные модели, для сложных вопросов, значение которых формируется на базе отношений между концептами, важно использовать отношения между словами.

 

Булево выражение обычно формируется как конъюнкция всех значимых слов формулировки вопроса. Если проводится морфологический анализ запроса или добавляются синонимы, то они объединяются в дизъюнкцию.

Например, если задан вопрос When did Shapour Bakhtiar die?, то может быть образовано следующее булево выражение:

Shapour AND Bakhtiar

AND (die OR dies OR died OR dying OR died OR death)

Поскольку стандартной является ситуация, когда не находится документов, которые содержат все значимые слова вопроса, то при обработке вопроса часто необходимо определить, какие именно слова формулировки вопроса можно отбросить, не включить в поисковый запрос без потери сути вопроса. Например, следующему вопросу «Кто из великих целителей прошлого написал трактат "О медицине"?» могут частично соответствовать два предложения (выделены слова из исходной формулировки запроса):

1)      ЦЕЛЬС (Celsus) А ел Корнелий (I в. до н. э.), древнеримский автор энциклопедических трудов «Artes» (сохранился трактат "О медицине", книги 1- 8, с ценными сведениями по гигиене, хирургии, дерматологии)

2)      А.Е. Ферсман приводит отрывок из трактата "Сокровищница лекарств", написанного арабским целителем около тысячи лет назад: "Ношение бирюзы...

Первое из предложений содержит правильный ответ ЦЕЛЬС, во втором предложении кандидатом на ответ является А.Е. Ферсман, что неверно.

Для более точного определения, какие именно слова из формулировки вопроса могут быть отброшены, обычно предлагается система модификаций, упрощающих исходное булево выражение, после каждой из которых опять происходит обращение к поисковой системе для проверки, не появились ли релевантные документы.

Обычно используются два основных способа упрощения булева выражения.

Во-первых, можно часть конъюнкций переводить в дизъюнкции. Вторым способом является поочередное исключение членов конъюнкции, на основе некоторого множества эвристик, определяющих значимость членов конъюнкции. Значимость членов конъюнкции может определяться на основе их грамматических характеристик в формулировке вопроса. Так, наиболее значимыми обычно считаются имена, фразы в кавычках, а наименее значимыми считаются глаголы.

Процесс исключения элементов из конъюнкции прекращается, когда количество документов (абзацев) в выдаче достигает заданного числа (например 50) или до тех пор, пока не остается заданный процент слов исходной формулировки вопроса.