| Оценка качества информационного поиска |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 01.11.2011 18:26 | |||
Оценка качества информационного поискаКачество работы систем информационного поиска оценивается на основе специально разрабатываемых мер. Основными характеристиками качества информационного поиска являются полнота и точность (Агеев, Кураленок, 2004; Manning и др., 2008). Полнота (recall, г) - доля релевантных документов в выдаче поисковой системы по отношению ко всем релевантным документам коллекции. Точность (precision, р) - доля релевантных документов по отношению ко всем документам в поисковой выдаче. Пусть N - число документов в коллекции, п - число документов в коллекции, релевантных некоторому запросу, m - число документов в выборке, полученной системой на данном запросе, А - число релевантных документов в выборке. Тогда p = А/m, r = А/n. (1112) ЭТИХ характеристик достаточно, если система поиска не производит дополнительного ранжирования документов. Если ранжирование документов производится, то нужно оценивать не только общее число найденных релевантных документов, но и на каких местах в выдаче располагаются релевантные документы. Для определения качества работы поисковой системы в начале списка результатов поиска используется показатель Точность на уровне n документов (Precision (n)), который определяется как количество релевантных документов среди первых n документов, деленное на n. Например, если система выдает не более 10 документов на первой странице, то precision (10) отражает качество результатов системы, получаемых на первой странице.
Для оценки качества полной выдачи поисковой системы применяется показатель средняя точность (average precision - AvgPrec/ которая усредняет точность при выдаче каждого из к релевантных документов. Точность на уровне i-ro релевантного документа precrel(i) равна precision (pos(i)), если релевантный документ находится в результатах запроса на по¬зиции pos(i). Если i-й релевантный документ не найден, то precrel(i) = 0. Средняя точность для заданного запроса равна среднему значению вели¬чины precrel(i) по всем к релевантным документам: AvgPrec=(l/k) ∑prec_rel(i). (11.13) Усреднение величины средней точности по всем запросам дает величину MAP - mean average precision - число, которое характеризует работу поисковой системы по совокупности запросов. При ранжированной выдаче значения точности и полноты при разных к могут быть отражены с помощью так называемой кривой «полнота-точность» (см. рис. 11.1).
Получившийся график носит зигзагообразный характер, поскольку если (к+1)-й документ не является релевантным, то полнота выдачи не изменяется, а точность выдачи падает. Если очередной документ является релевантным, то возрастает как полнота, так и точность - кривая отклоняется вверх и вправо. Для сглаживания этих зигзагов используется понятие интерполированной точности. Интерполированная точность pinterp на определенном уровне полноты г определяется как максимальная точность, полученная на уровнях полноты rl больших, чем г: rl > г.
Pinterp(r)=maxri>rp(rl). (11.14) Такое приближение убирает «внутренние» зубцы. Интерполированный график показан на рисунке тонкой линией. Для количественного сравнения работы поисковых систем на разных уровнях полноты используется одинадцатиточечная интерполированная средняя точность (eleven-point interpolated average precision). Для вычисления этой величины по каждому поисковому запросу точность меряется в 11 точ¬ках на уровнях полноты 0.0, 0.1, 0.2...0.9, 1.0. Получается список из 11 значений точности, который может усредняться по всем тестируемым поисковым запросам. Эти 11 значений точности могут быть отражены на графике интерполированной точности (рис. 11.2). Именно такой график часто показывается при сравнении работы поисковых систем.
В настоящее время общепринятым является тестировать методы информационного поиска на базе общих коллекций документов в рамках специально проводимых конференций. Первой такой конференцией, впервые организованной в начале 90-х годов 20 века, стала конференция TREC (Text Retrieval Conference). Позже возникли такие конференции, как CLEF (Cross Language Evaluation Forum), которая фокусируется на европейских языках и многоязычном поиске, NTCIR (восточно-азиатские языки и многоязычный поиск). В России с 2003 года ежегодно собирается семинар по оценке мето¬дов информационного поиска - РОМИП (www.romip.ru) (Кураленок и др., 2003).
|

