| Булева модель информационного поиска |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 22.10.2011 18:43 | |||
Булева модель информационного поискаИсторически первой моделью информационного поиска является булева модель. В этом подходе слова запроса соединяются между собой логическими связками: AND (&), OR(v), NOT(—.), которые могут быть сгруппированы при помощи скобок. Таким образом, запрос пользователя представляется логической формулой, в которой атомами могут быть термины или какие-либо дополнительные условия (например тип коллекции или документа, ограничение на расстояние между словами запроса и т. п.). Поисковая машина, основанная на булевом поиске, возвращает документы, для которых формула запроса принимает истинные значения. Каждому атому формулы сопоставляется множество документов, для которых значение атома истинно. Если атом является термином, то ему сопоставляется множество документов, в которых термин встречается. Затем над множествами выполняются элементарные операции - объединения, пересечения и дополнения, соответствующие логическим связкам между атомами. Современные булевы модели информационного поиска включают также операторы близости элементов запроса, которая измеряется либо в количестве промежуточных слов между элементами запроса в документе, либо задается указанием структурной единицы документа (предложение, абзац), в которой должны упоминаться элементы запроса. Булева модель обработки запроса имеет ряд недостатков: - на заданный запрос поисковая машина может вернуть очень много документов (или даже все документы коллекции). В этом случае пользователь вынужден последовательно добавлять условия в запрос, чтобы уменьшить результирующую выборку. Поиск производится методом проб и ошибок. В результате также часто возникает ситуация, когда условия булева запроса оказываются противоречивы, и пользователь не получает ни одного документа; - как правило, полезную выборку обозримого размера можно получить, задав сложную логическую формулу. При этом от пользователя требуется не только знание правил построения формул, но и достаточно хорошее знакомство с «языком» предметной области; - вследствие того, что существуют только два значения релевантности: «релевантен» (true) и «нерелевантен» (false), результирующая выборка не может быть упорядочена по релевантности. Все документы одинаково релевантны; - все атомы формулы имеют одинаковую важность (вес), хотя некоторые из них могут быть «ключевыми», другие — вспомогательными. В то же время булева модель имеет и достоинства. Результаты ее работы хорошо предсказуемы и понятны. В булевом запросе могут быть объединены значения разных характеристик документов, включая как слова, содержащиеся в документе, так и такие характеристики, как автор документа, время создания документа и др. Несмотря на недостатки булевой модели, имеются ситуации, когда булев поиск является предпочтительным, поэтому такая возможность поиска предоставляется многими поисковыми системами: как интернет-поисковиками, так и различными коммерческими службами по поиску документов, библиотечными службами.
|