Войти



Последние материалы

Золотые партнеры:

Серебряные партнеры:

Бронзовые партнеры:

Тестирование алгоритма разрешения многозначности на запросах из правовой области
Статьи
Автор: Лукашевич Н.В.   
06.01.2012 19:23

Тестирование алгоритма разрешения многозначности на запросах из правовой области

Исследуя эффект нового алгоритма по разрешению лексической многозначности для коротких текстов, мы сделали небольшую коллекцию 40 длинных запросов в области права из коллекции семинара по информационному поиску РОМИП (www.romip.ru), например таких, как компенсация подоходного налога при приобретении недвижимости. Для этой коллекции разрешение многозначности терминов Общественно-политического тезауруса по алгоритму LocGlob достигло величины 82.02%, в то время как точность прежнего алгоритма Glob на этих запросах составляла 48.31%.

Для такой коллекции параметры алгоритма LocGlob настраивались отдельно. Параметры, на которых были получены лучшие результаты для коллекции запросов, оказались совершенно иными, чем для коллекции статей: это максимальные величины деревьев - 7 шагов, минимальные пороги для обоих видов многозначности, минимальные цены перегибов.

Такие результаты привели к мысли, что можно сделать систему автоматической настройки параметров алгоритма в зависимости от длины обрабатываемого текста. Был проведен следующий эксперимент: та же тестовая коллекция статей (см. здесь) была разделена на пять подколлекций по величине текстов. Мы пытались подобрать лучшие параметры для каждой группы текстов и выявить функцию изменения основных параметров. Однако в этом эксперименте четкой корреляции, позволяющей реализовать самонастройку параметров, не было выявлено. Группа самых коротких текстов статей давала неожиданно низкий результат разрешения многозначности, причем лучший результат - 71.02% - был получен на параметрах, более близких к параметрам всей коллекции, чем к лучшим параметрам, полученным для запросов.