Войти



Последние материалы

Серебряные партнеры:

Трубы профильные: пластиковые трубы. Всё для отопления и водоснабжения.

Бронзовые партнеры:

Предметные области вопросно-ответных систем
Статьи
Автор: Лукашевич Н.В.   
02.11.2011 17:12

Предметные области вопросно-ответных систем

Современные вопросно-ответные системы можно подразделить на два больших класса.

Первый класс - это вопросно-ответные системы общего назначения, которые должны отвечать на широкий круг вопросов на базе сверхбольших текстовых коллекций, например, информации, хранящейся на интернет-сайтах. Величина используемых текстовых коллекций часто позволяет такой системе воспользоваться избыточностью информации и находить такой текст, в котором ответ может быть получен системой наилучшим образом. На конференциях TREC и CLEF тестируются общие вопросно-ответные системы.

Второй класс вопросно-ответных систем - это системы, созданные для ответов на вопросы в рамках конкретных предметных областей, в частности, для поиска информации в технической документации, в коллекции ответов начастые вопросы пользователей и другие. Такие системы располагают значительно меньшей коллекцией документов. В значительной мере для качественного поиска ответов на вопросы эти системы должны пользоваться знаниями о предметной области, хранимыми, в частности, в форме онтологии и тезаурусов (Molla, Vicedo, 2006).

Примерами сфер приложений специальных вопросно-ответных систем являются правовая сфера, а также многочисленные форумы по техническим проблемам, программному обеспечению, куда обращаются пользователи со своими проблемами.

Может показаться, что сужение сферы деятельности позволяет точнее настроить вопросно-ответную систему, и это действительно так. Однако в предметных областях возникает другая проблема: реальные вопросы пользователей не представляют собой аккуратно построенный в виде одного предложения вопрос. Чаще вопрос реального пользователя включает предварительное описание проблемной ситуации, своих действий в этой ситуации, может содержать несколько подвопросов с отдельными вопросительными словами, а также может содержать значительное количество вводных слов и другого рода бессодержательных слов (помогите, пожалуйста, поясните, help и т. п.).

Приведем пример такого вопроса из компьютерного форума:

Ноутбук Compaq пх9010, месяц от роду, лицензионная русская ХР Ноте SP1, каждые 3-4 дня загадочно исчезают точки восстановления: просто стираются соответствующие папки. Похоже, что при перезагрузке. Но не уверен. В качендаре мастера восстановления -тоже исчезают. На диске свободно 27 Гб, движок стоит на все 12%. На десктопе со времён установки ХР ничего подобного никогда не наблюдалось (там без сервиспака). Принятые меры: выключение и снова включение восстановления - ноль внимания. Снесение системы, установка заново - аналогично. Где копать? Машина хорошая, претензий нет. К виндам во всём остальном - тоже. Железо? Винды? Хитрые дрова? Что?

Пример реального вопроса в правовой области:

Расскажите, пожалуйста, о туристических и транзитных визах в США. Что собой представляют визы, выдаваемые супругам, и визы,   связанные с обучением? Сколько стоит оформление визы?

В работе (Jeon и др., 2005) указывается, что если современные интернет-поисковики демонстрируют достаточно высокое качество обработки 2-3-х словных запросов, их способность отвечать на сложные вопросы... является явно недостаточной.

В (Liddy и др., 2004) также пишут о том, что исследования вопросно-ответных систем в рамках TREC в наибольшей степени были сконцентрированы на коротких, направленных на поиск фактов, общезначимых вопросах, поиск ответов на многие из которых базируется на избытке информации в Интернет. Предложенные подходы достаточно хорошо работают для вопросов типа TREC, однако хорошие результаты не обязательно обеспечивают успех при обработке вопросов вне конференции TREC.

В (Liddy и др., 2004) описывается система обработки реальных вопросов в рамках более широкой области аэрокосмической индустрии. Основные ком¬поненты вопросно-ответной системы включают: 1) обработку документов, 2) модуль язык - логика (L2L), 3) поисковую машину и 4) нахождение абзацев с ответом. Когда пользователь спрашивает систему, его вопрос сначала посылается в L2L модуль, который порождает внутреннее представление вопроса и идентифицирует фокус вопроса. Поисковая машина возвращает 50 лучших документов. В качестве ответов возвращается 20 лучших абзацев.

Вопросы NASA отличаются от вопросов TREC в нескольких аспектах. Во-первых, вопросы NASA задаются в реальное время студентом, и вопрос может быть многозначным или предполагает неявное знание. Реальные вопросы обычно пишутся в спешке и могут быть сформулированы с нарушением грамматической структуры или содержать орфографические ошибки. На¬пример, простой вопрос «How does the shuttle fly?» («Как летает космический челнок?») является слишком широким, возможны несколько его интерпретаций.

Еще один тип вопроса, который кажется простым: «At what temperatures do liquid metals typically exist?» («При каких температурах металлы являются жидкими»). Проблема в том, что для разных металлов в разных условиях эта температура - разная. Другой тип трудных для ответа вопросов требует сравнения двух различных элементов из двух различных документов, ответ из которых должен быть синтезирован вопросно-ответной системой.

В (Liddy и др., 2004) указано, что проблемы плохо сформулированных вопросов уже описаны библиотекарями. Плохо сформулированные вопросы делятся на следующие категории:

-        слишком широкий вопрос;

-        вопрос, правильный ответ на который, на самом деле, не удовлетворит пользователя;

-        вопрос, который связан с недопониманием пользователем поисковой системы или предмета поиска;

-        многозначный вопрос;

-        вопрос, основанный на ошибочной информации.