Войти



Последние материалы

Золотые партнеры:

Серебряные партнеры:

Бронзовые партнеры:

Тестирование алгоритмов разрешения многозначности на основе Общественно-политического тезауруса
Статьи
Автор: Лукашевич Н.В.   
06.01.2012 19:15

Тестирование алгоритмов разрешения многозначности на основе Общественно-политического тезауруса

Тестирование алгоритмов разрешения многозначности для терминов Общественно-политического тезауруса проводилось на материалах газет и наборе новостных сообщений. Предварительно случайным образом было выбрано несколько дат. Из коллекции Университетской информационной системы РОССИЯ были выгружены газетные публикации, относящиеся к выбранным датам. Набор газетных публикаций включает полные номера газет «Известия», «Ведомости», «Независимая газета», «Комсомольская правда». Каждый номер содержит несколько десятков статей. Средний размер статьи около 5 Кб. За те же даты были взяты новостные сообщения из коллекции новостей Яндекса (данная коллекция распространяется в рамках экспериментов семинара РОМИП).

 

В процессе эксперимента вручную было размечено 197 документов, что соответствует полным номерам газет «Известия», «Независимая газета», «Ведомости», «Комсомольская правда» от 19 ноября 2003 г., а также было размечено 30 новостных сообщений за ту же дату. Взятие полных номеров обеспечивает достаточно большое разнообразие тематики документов.

Результаты работы алгоритмов разрешения многозначности по каждому из источников показаны в табл. 19.1, где Nlioc - число документов, Namh ~ число вхождений неоднозначных терминов, Р/осфь - точность по алгоритму LocGlob, Рфь- точность по алгоритму Glob.

Совокупная точность работы системы по более гибкому алгоритму LocGlob в процессе тестирования составила 73.37% и выросла на 6.7% относительно точности разрешения многозначности, полученной по алгоритму Glob.

Как и предполагалось, наибольший рост точности алгоритма, более гибко учитывающего конфигурации путей отношений тезауруса, а также локальный и глобальный контекст, удалось получить на относительно коротких текстах новостных сообщений. Рост точности разрешения многозначности на этих типах текстов составил более 10%.

Для получения лучших результатов тестировались разные наборы параметров алгоритма LocGlob. К особенностям наилучшего набора параметров можно отнести следующие закономерности. Были выбраны разные пороги для разных видов многозначности: 4 балла для А-многозначности и 2 балла для М-многозначности. Такое соотношение порогов является предсказуемым, поскольку при М-многозначности между собой «соревнуются» несколько значений, а при А-многозначности значение-контрагент находится вне зоны тезауруса.

Выяснилось, что подтверждение от многозначного термина в локальном контексте значимо - так же, как и от однозначного термина. Эта закономерность не была очевидна - при ручном анализе было видно, что между парами многозначных терминов иногда возникают ложные корреляции, приводящие к выбору неправильных значений для обоих терминов. Наилучшей оказалась динамическая окрестность локального контекста 3+3. Лучший результат был получен для высоты деревьев 2 как для локального, так и для глобального уровней, т. е. при поиске семантически близких терминов в среднем лучше использовать как подтверждение понятия, отстоящие от понятий, соответствующих многозначному выражению, общая длина пути не более 4 отношений.

Из всех типов перегибов «наихудшими», получившими максимальные баллы штрафа, оказались перегибы типа: видовое понятие1-родовое понятие - видовое понятие_2, что ожидалось, а также перегиб - вниз типа родовое понятие 1-видовое понятие - родовое понятие_2.

При анализе результатов работы алгоритмов, изложенных в табл. 19.1, нужно подчеркнуть важное обстоятельство. Тезаурус содержит много однозначных словосочетаний, в состав которых входят многозначные слова, например министр обороны, уголовное дело, дополнительный отпуск. При анализе текста эти многозначные слова попадают внутрь многословных терминов, и задача разрешения их многозначности не возникает. Однако если бы словосочетаний не было, то пришлось бы разрешать многозначность этих слов алгоритмически. Было подсчитано, что если учесть те многозначные слова, многозначность которых снимается за счет объемлющих словосочетаний, то точность разрешения многозначности на основе комплекса «многословные термины тезауруса + алгоритм разрешения» возросла бы в среднем на 5 %.

Также мы исследовали вопрос, насколько точность разрешения многозначности зависит от частотности многозначной единицы в тексте. Была выявлена интересная корреляция, что разрешение многозначных слов, встретившихся в тексте один раз, во всех подколлекциях на несколько процентов ниже, чем в целом по коллекции. Это означает, что точность разрешения для слов с большей частотностью выше, чем приведенная в таблице.