| Тестирование алгоритма разрешения многозначности на запросах из правовой области |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 06.01.2012 19:23 | |||
Тестирование алгоритма разрешения многозначности на запросах из правовой областиИсследуя эффект нового алгоритма по разрешению лексической многозначности для коротких текстов, мы сделали небольшую коллекцию 40 длинных запросов в области права из коллекции семинара по информационному поиску РОМИП (www.romip.ru), например таких, как компенсация подоходного налога при приобретении недвижимости. Для этой коллекции разрешение многозначности терминов Общественно-политического тезауруса по алгоритму LocGlob достигло величины 82.02%, в то время как точность прежнего алгоритма Glob на этих запросах составляла 48.31%. Для такой коллекции параметры алгоритма LocGlob настраивались отдельно. Параметры, на которых были получены лучшие результаты для коллекции запросов, оказались совершенно иными, чем для коллекции статей: это максимальные величины деревьев - 7 шагов, минимальные пороги для обоих видов многозначности, минимальные цены перегибов. Такие результаты привели к мысли, что можно сделать систему автоматической настройки параметров алгоритма в зависимости от длины обрабатываемого текста. Был проведен следующий эксперимент: та же тестовая коллекция статей (см. здесь) была разделена на пять подколлекций по величине текстов. Мы пытались подобрать лучшие параметры для каждой группы текстов и выявить функцию изменения основных параметров. Однако в этом эксперименте четкой корреляции, позволяющей реализовать самонастройку параметров, не было выявлено. Группа самых коротких текстов статей давала неожиданно низкий результат разрешения многозначности, причем лучший результат - 71.02% - был получен на параметрах, более близких к параметрам всей коллекции, чем к лучшим параметрам, полученным для запросов. Tags: Тестирование алгоритма разрешения многозначности на запросах из правовой области Построение тезаурусного индекса разрешение лексической многозначности
|