Войти



Последние материалы

Золотые партнеры:

Интернет-магазин. Электроника - раскрутка сайта цены. Сайт от 3000 руб.

Серебряные партнеры:

Бронзовые партнеры:

Задание «Все слова текста»
Статьи
Автор: Лукашевич Н.В.   
22.10.2011 17:33

Задание «Все слова текста»

Для тестирования задачи «Все слова текста» на конференции Senseval-З использовались три текста: две статьи из Wall Street Journal и фрагмент из Брауновского корпуса - общий объем 5000 слов (Kilgarriff, Rosenzweig, 2000; Snyder, Palmer, 2004). Всего для тестирования использовались 2081 слов. Аннотирование проводилось по набору значений тезауруса WordNet. Если в WordNet не было подходящего значения, то проставлялась помета U.

По результатам конференции SENSEVAL-З для английского языка в задаче разрешения многозначности для всех слов текста точность лучшей системы составляет 65.2% (Snyder, Palmer, 2004).

Все лучшие в SENSEVAL-З алгоритмы разрешения многозначности используют семантически размеченные корпуса по значениям WordNet. Семантическая разметка корпуса обычно используется двумя основными способами: как основа для обучения программы разрешения многозначности и как информация о наиболее частотном значении, которое выбирается в тех случаях, когда не удалось выбрать значение с помощью основного алгоритма. По оценкам, порядка 60% слов в тестовых текстах употреблялись в наиболее частотном значении, полученном по семантически размеченному корпусу SemCor (Snyder, Palmer, 2004).

Согласие между лексикографами-аннотаторами значений достигало 72.5%. Наибольший процент разногласий по разметке значений был связан с небольшим набором трудных слов, например national.

Для каждой системы было выполнено два вида подсчетов. В первом случае отказ системы определить значение рассматривался как U, так что такой ответ засчитывался как правильный только в случае, когда разметка также была U, и как неправильный в противном случае. Второй вид подсчета не учитывал те ответы, в которых система выдала U. Таким образом, точность не менялась, а полнота при таком подсчете понижалась.

При первой системе подсчетов максимальная точность 0.652, средняя точность по системам - 0.522. При второй системе подсчетов - средняя точность 57.4, полнота - 51.9.

Важно отметить, что иногда в счет «благополучно» разрешенных многозначных единиц попадают также и однозначные термины. По нашей оценке, в одном из тестовых текстов около 10% размеченных слов имеют одно значение в WordNet, например такие слова, как congressional, constituency, salary, legislator, reelection и др. (Данные получены с сайта http://www.senseval.org/.) Если рассчитать точность разрешения многозначности для лучшей системы, не считая этих однозначных слов, то величина точности разрешения многозначности лучшей системы составит 59.9%.