Войти



Последние материалы

Золотые партнеры:

Серебряные партнеры:

Бронзовые партнеры:

Особенность задачи
Статьи
Автор: Лукашевич Н.В.   
06.02.2012 19:40

Особенность задачи

Как мы уже указывали в предыдущем разделе, несмотря на то, что подавляющее большинство запросов в поисковых системах относительно небольшой величины (в среднем 2-3 слова), существуют ситуации, когда пользователь задает достаточно длинный запрос. Необходимость в особенно длинных запросах возникает тогда, когда у пользователя есть какая-то проблема, и он обращается в интернет-форумы или вопросно-ответные сервисы, описывает свою проблему и ждет ответа от других пользователей форума или хотел бы найти документ, который помог бы ему справиться с его проблемой. При обращении в форум обязательным условием является то, что перед заданием вопроса людям необходимо приложить усилия и попробовать найти ответ на свою проблему в предыдущих сообщениях форума.

Задача поиска ответа на вопрос в виде формулировки проблемы значительно отличается от задач, решаемых в стандартных современных вопросно-ответных системах:

-        количество запросов, похожих на вопросы, которые тестировались в рамках конференции TREC (см. Тезаурусы в вопросно-ответных системах), достаточно мало;

-        большинство вопросов представляет собой либо детальное описание ситуации и вопрос, специфичный для данной ситуации, либо совокупность структурно простых подвопросов, которые вместе также задают описание специфической правовой ситуации;

-        при этом структурно сложные вопросы состоят из нескольких предложений и/или содержат несколько подвопросов.

При обработке структурно сложных вопросов имеются следующие сложности по сравнению с обработкой простых вопросов:

-        автоматически трудно точно определить структуру вопроса - разбить его правильно на подвопросы, определить фокус вопроса;

-        если часто можно ожидать, что ответ на структурно простой вопрос может содержаться в одном предложении текста, то ответ на структурно сложный вопрос может «собираться» из нескольких предложений документа.

В связи с этим для структурно сложных вопросов наиболее важным является поиск документов, содержащих описание соответствующей ситуации, при этом часто учет информации о структуре вопроса носит дополнительный характер.

Обработка длинных поисковых запросов в значительной степени отличается от обработки коротких запросов, которые являются наиболее распространенными запросами к поисковым системам. Если при поиске по коротким запросам поисковая система, скорее всего, найдет множество документов, включающих все слова запроса, и ее главной задачей является правильное упорядочение найденных документов, то при обработке длинных запросов к информационной системе в подавляющем большинстве случаев не найдется ни одного документа или найдется всего несколько документов, содержащих все слова запроса. Таким образом, основной задачей при обработке такого запроса является поиск и упорядочение документов, содержащих лишь часть слов запроса.

Казалось бы, векторные модели информационного поиска, которые описывают запрос и документы как векторы слов с весами, дают хороший базис для поиска ответов на длинные поисковые запросы, поскольку эта технология позволяет устанавливать частичное соответствие между запросом и документом.

Однако в реальности оказывается, что при использовании векторной модели часто поиск производится по относительно малозначащим словам запроса, в то время как очень важные слова запроса могут при сопоставлении исчезнуть. Как мы указывали в статье «Основные этапы обработки вопросов в вопросно-ответных системах», для того, чтобы в некоторой степени управлять формированием поискового запроса, предлагается использование многошаговых булевых моделей. В следующем разделе будет описан алгоритм этого типа, который мы назвали «феноменологическая модель».