Войти



Последние материалы

Золотые партнеры:

Серебряные партнеры:

Бронзовые партнеры:

Краткий итог опубликованных статей о построении тезаурусного индекса и разрешении лексической многозначности.
Статьи
Автор: Лукашевич Н.В.   
06.01.2012 19:28

Краткий итог опубликованных статей о построении тезаурусного индекса и разрешении лексической многозначности.

Реализованные алгоритмы автоматического разрешения многозначности показали максимальную среднюю точность разрешения многозначности 73.37% для тематической лексики и терминологии Общественно-политического тезауруса и 57.14% для всех знаменательных слов текста, т. е. по тезаурусу РуТез в целом.

Возникает вопрос, много это или мало, и какое качество разрешения многозначности нужно обеспечить для качественной работы тезауруса в приложениях автоматической обработки текстов.

Качество разрешения многозначности для задачи «все слова текста» значительно превышает показатели, достигнутые для алгоритмов, работающих на основе WordNet в тех же условиях, т. е. без учета информации из размеченного корпуса, в частности информации о самом частотном значении. Это, на наш взгляд, в значительной мере связано с более богатой отношениями структурой тезауруса РуТез.

Однако представляется, что полученные результаты точности разрешения многозначности для задачи «все слова текста» даже лучших методов недостаточны для того, чтобы использоваться в реальных приложениях информационного поиска. Так, в начале этой главы мы приводили данные о том, что в экспериментах было показано, что для получения нового качества поиска по сравнению с пословными моделями необходимо обеспечить, по крайней мере, 70% точности разрешения многозначности.

С разрешением многозначности тематической лексики и терминологии Общественно-политического тезауруса ситуация принципиально другая. Достигнуты значительно более высокие результаты разрешения многозначности. Эти результаты потенциально могут быть увеличены за счет использования дополнительной информации (например, о самом частотном значении, которое можно выбирать при величинах оценки значений ниже пороговых или близких к пороговым). Поэтому во многих приложениях мы более полагаемся на Общественно-политический тезаурус, а также исследуем комбинированные методы, сочетающие пословные методы обработки текстов и обработку по тематическим понятийным ресурсам, таким как тезаурусы и онтологии.