| Тестирование алгоритма разрешения многозначности на основе тезауруса РуТез |
| Статьи |
| Автор: Лукашевич Н.В. |
| 06.01.2012 19:25 |
Тестирование алгоритма разрешения многозначности на основе тезауруса РуТезДля тестирования алгоритма разрешения многозначности на основе всего Тезауруса РуТез, что соответствует задаче «все слова текста» конференции Senseval, было взято по две статьи из газет «Известия», «Комсомольская правда», «Независимая газета», «Ведомости». Количество многозначных единиц - 1120. Меньший объем коллекции объясняется значительно большими трудозатратами по подготовке эталонной разметки. Для алгоритма LocGlob была получена точность разрешения многозначности - 57.14%, с учетом разрешения за счет попадания в словосочетания, описанные в тезаурусе - 63.4%. Для лучшего набора параметров этой коллекции характерна большая величина окна - используется динамическое окно 4+4. Точность разрешения многозначности, показанная реализованным алгоритмом для задачи «все слова текста», не использующая размеченного корпуса, приблизительно соответствует результатам работы лучших систем на конференции SENSEVAL. Мы получили этот результат без использования дополнительной информации о наиболее частотных значениях, без использования размеченного корпуса и т.п. Наилучший известный авторам алгоритм, использующий только WordNet, имеет точность 50.89% на данных SENSEVAL-3 (напомним еще про 10% однозначных слов в тестовой коллекции этой конференции - см. здесь). Tags: Тестирование алгоритма разрешения многозначности на основе тезауруса РуТез Построение тезаурусного индекса разрешение лексической многозначности
|