| Особенность задачи |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 06.02.2012 19:40 | |||
Особенность задачиКак мы уже указывали в предыдущем разделе, несмотря на то, что подавляющее большинство запросов в поисковых системах относительно небольшой величины (в среднем 2-3 слова), существуют ситуации, когда пользователь задает достаточно длинный запрос. Необходимость в особенно длинных запросах возникает тогда, когда у пользователя есть какая-то проблема, и он обращается в интернет-форумы или вопросно-ответные сервисы, описывает свою проблему и ждет ответа от других пользователей форума или хотел бы найти документ, который помог бы ему справиться с его проблемой. При обращении в форум обязательным условием является то, что перед заданием вопроса людям необходимо приложить усилия и попробовать найти ответ на свою проблему в предыдущих сообщениях форума. Задача поиска ответа на вопрос в виде формулировки проблемы значительно отличается от задач, решаемых в стандартных современных вопросно-ответных системах: - количество запросов, похожих на вопросы, которые тестировались в рамках конференции TREC (см. Тезаурусы в вопросно-ответных системах), достаточно мало; - большинство вопросов представляет собой либо детальное описание ситуации и вопрос, специфичный для данной ситуации, либо совокупность структурно простых подвопросов, которые вместе также задают описание специфической правовой ситуации; - при этом структурно сложные вопросы состоят из нескольких предложений и/или содержат несколько подвопросов. При обработке структурно сложных вопросов имеются следующие сложности по сравнению с обработкой простых вопросов: - автоматически трудно точно определить структуру вопроса - разбить его правильно на подвопросы, определить фокус вопроса; - если часто можно ожидать, что ответ на структурно простой вопрос может содержаться в одном предложении текста, то ответ на структурно сложный вопрос может «собираться» из нескольких предложений документа. В связи с этим для структурно сложных вопросов наиболее важным является поиск документов, содержащих описание соответствующей ситуации, при этом часто учет информации о структуре вопроса носит дополнительный характер. Обработка длинных поисковых запросов в значительной степени отличается от обработки коротких запросов, которые являются наиболее распространенными запросами к поисковым системам. Если при поиске по коротким запросам поисковая система, скорее всего, найдет множество документов, включающих все слова запроса, и ее главной задачей является правильное упорядочение найденных документов, то при обработке длинных запросов к информационной системе в подавляющем большинстве случаев не найдется ни одного документа или найдется всего несколько документов, содержащих все слова запроса. Таким образом, основной задачей при обработке такого запроса является поиск и упорядочение документов, содержащих лишь часть слов запроса. Казалось бы, векторные модели информационного поиска, которые описывают запрос и документы как векторы слов с весами, дают хороший базис для поиска ответов на длинные поисковые запросы, поскольку эта технология позволяет устанавливать частичное соответствие между запросом и документом. Однако в реальности оказывается, что при использовании векторной модели часто поиск производится по относительно малозначащим словам запроса, в то время как очень важные слова запроса могут при сопоставлении исчезнуть. Как мы указывали в статье «Основные этапы обработки вопросов в вопросно-ответных системах», для того, чтобы в некоторой степени управлять формированием поискового запроса, предлагается использование многошаговых булевых моделей. В следующем разделе будет описан алгоритм этого типа, который мы назвали «феноменологическая модель». Tags: Особенность задачи Использование комбинированных моделей для поиска доку-ментов по запросам типа «формулировка проблемы» в правовой области Информационный поиск с учетом тезаурусных знаний
|