| Краткий итог опубликованных статей о построении тезаурусного индекса и разрешении лексической многозначности. |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 06.01.2012 19:28 | |||
Краткий итог опубликованных статей о построении тезаурусного индекса и разрешении лексической многозначности.Реализованные алгоритмы автоматического разрешения многозначности показали максимальную среднюю точность разрешения многозначности 73.37% для тематической лексики и терминологии Общественно-политического тезауруса и 57.14% для всех знаменательных слов текста, т. е. по тезаурусу РуТез в целом. Возникает вопрос, много это или мало, и какое качество разрешения многозначности нужно обеспечить для качественной работы тезауруса в приложениях автоматической обработки текстов. Качество разрешения многозначности для задачи «все слова текста» значительно превышает показатели, достигнутые для алгоритмов, работающих на основе WordNet в тех же условиях, т. е. без учета информации из размеченного корпуса, в частности информации о самом частотном значении. Это, на наш взгляд, в значительной мере связано с более богатой отношениями структурой тезауруса РуТез. Однако представляется, что полученные результаты точности разрешения многозначности для задачи «все слова текста» даже лучших методов недостаточны для того, чтобы использоваться в реальных приложениях информационного поиска. Так, в начале этой главы мы приводили данные о том, что в экспериментах было показано, что для получения нового качества поиска по сравнению с пословными моделями необходимо обеспечить, по крайней мере, 70% точности разрешения многозначности. С разрешением многозначности тематической лексики и терминологии Общественно-политического тезауруса ситуация принципиально другая. Достигнуты значительно более высокие результаты разрешения многозначности. Эти результаты потенциально могут быть увеличены за счет использования дополнительной информации (например, о самом частотном значении, которое можно выбирать при величинах оценки значений ниже пороговых или близких к пороговым). Поэтому во многих приложениях мы более полагаемся на Общественно-политический тезаурус, а также исследуем комбинированные методы, сочетающие пословные методы обработки текстов и обработку по тематическим понятийным ресурсам, таким как тезаурусы и онтологии. Tags: Краткий итог опубликованных статей о построении тезаурусного индекса и разрешении лексической многозначности Построение тезаурусного индекса разрешение лексической многозначности
|