| Тестирование эффективности информационного поиска на основе Общественно-политического тезауруса |
| Статьи | |||||||||||||||
| Автор: Лукашевич Н.В. | |||||||||||||||
| 29.01.2012 14:17 | |||||||||||||||
Тестирование эффективности информационного поиска на основе Общественно-политического тезаурусаВ данном разделе мы опишем эксперимент по тестированию качества информационного поиска с использованием тезаурусных знаний в условиях, когда задаваемые запросы хорошо покрываются текстовыми входами Общественно-политического тезауруса. В качестве запросов были выбраны рубрики из Классификатора правовых актов (Указ, 2000). Поиск осуществлялся на коллекции нормативных актов УИС РОССИЯ. Для тестирования эффективности информационного поиска мы выполнили набор запросов в УИС РОССИЯ. Каждый запрос был сформулирован дважды: один раз как запрос на поиск по словам, второй раз - как запрос на поиск по понятиям тезауруса с полным расширением по дереву. Поиск по словам осуществляется с использованием векторной модели в формулировке системы Inquery (Callan и др., 1992). При выполнении подавляющего количества запросов количество документов, найденных с использованием деревьев тезауруса, значительно превышало количество документов, найденных по словам. Таким образом, полнота поиска с использованием деревьев тезауруса значительно возросла. Однако, как известно, увеличение полноты поиска часто сопровождается снижением точности поиска, т. е. релевантными считается большее количество нерелевантных документов. Чтобы сопоставить точность поиска по тезаурусу и по словам, мы использовали методику оценки средней точности по трем заданным значениям полноты, описанную в (Vorhees, 1999). Точность выполнения запроса вычисляется при следующих трех значениях полноты: 0.2, 0.5, 0.8, и затем находится среднее значение точности. Для оценки эффективности поиска необходимо сначала определить множество релевантных документов, а затем проверить релевантность значительного количества полученных по запросу документов. Для снижения трудозатрат, необходимых на проведение оценок, мы сохранили формулировку запроса, но стали сокращать временной интервал до тех пор, пока не получили как релевантные 30-40 документов. Эффективность поиска на таком количестве документов уже достаточно просто проверить. Приведем результаты наших оценок для двух запросов. Мы выполнили запрос «Медикаменты» по нормативным документам во временном интервале 01.09.2000 - 01.01.2001 и получили 40 документов при поиске по тезаурусу (109 понятий - 243 терминов - в дереве расширения: антибиотики, аптека, вакцина, витамин и т. д.) и 8 документов при поиске по словам. Просмотрев все полученные документы, мы выяснили, что имеется 25 релевантных документов. Точность нужно было вычислить при достижении в списке документов 5-го (5/25 = 0.2), 12-го (12/25 = 0.6) и 20-го (20/25 = 0.8) релевантных документов. При поиске по тезаурусу пятый релевантный документ был получен десятым, двенадцатый - двадцатым, двадцатый - тридцатым. Таким образом, средняя точность выполнения запроса: (0.5 + 0.65 + 0.66)/3 = 0.57. При поиске по словам все восемь документов были релевантны. В первой точке точность равна 1.00, но двух других значений полноты поиска по словам достичь не смог, поэтому точность в этих двух точках равна 0.00 . Средняя точность -0.33. По запросу «Пожарная безопасность» по нормативным документам на том же временном интервале было получено 32 документа при поиске по Тезаурусу (26 понятий - 99 терминов - в дереве расширения: авиапожарная служба, брандспойт, ..., пожарная защита и т. д.) и 20 документов при поиске по словам. Было выявлено 27 релевантных документов. Получены следующие оценки точности:
Приведем примеры документов, которые были сочтены нерелевантными. Документы о награждении правительственными наградами и документы о подчиненности предприятий тому или иному ведомству были рассмотрены как нерелевантные двум указанным запросам. По запросу «Пожарная безопасность» документ об обязательной дактилоскопической экспертизе пожарников был рассмотрен как не имеющий отношения к теме. По запросу «Медикаменты» были сочтены нерелевантными 5 документов о психотропных средствах, поскольку в этих документах термин «психотропное средство» упоминался наряду с термином «наркотики», и документы были посвящены проблеме пресечения незаконного оборота психотропных средств и наркотиков. Всего было выполнено тестирование 19 запросов - рубрик Президентского рубрикатора. Таким образом, были получены следующие значения точности: Точность при поиске по тезаурусу: -точность в точке 0.2: - 0.81 -точность в точке 0.5: - 0.58 - точность в точке 0.8: - 0.46 - средняя точность: - 0.62 Точность при поиске по словам: -точность в точке 0.2: - 0.77 -точность в точке 0.5: - 0.52 - точность в точке 0.8: - 0.02 - средняя точность: - 0.44 Отметим, что в условиях эксперимента запросы были небольшой длины и при этом имели достаточно хорошее пересечение с терминами Общественно-политического тезауруса. На практике частой ситуацией является наличие в запросе большого количества слов, не входящих в Общественно-политический тезаурус, имеющих другое значение, чем описано в Общественно-политическом тезаурусе, и др. Данный эксперимент подтверждает, что при совпадении запроса с термином тезауруса расширение поиска по тезаурусу приводит к значительному увеличению эффективности информационного поиска. Кроме того, этот эксперимент подтверждает, что наши усилия описывать наиболее надежные, применимые в разных контекстах, отношения в тезаурусе также дали свои результаты. Tags: Тестирование эффективности информационного поиска на основе Общественно-политического тезауруса Информационный поиск с учетом тезаурусных знаний
|