Войти



Последние материалы

Серебряные партнеры:

Комплексная чистка лица от 1200 р: ультразвуковая чистка лица противопоказания. . Ключи. Скидки: дома под ключ. Готовые дома за 699 тыс. руб.

Бронзовые партнеры:

Задание «Набор многозначных слов»
Статьи
Автор: Лукашевич Н.В.   
22.10.2011 17:30

Задание «Набор многозначных слов»

Чтобы сформировать набор многозначных слов для тестирования автоматических систем в рамках конференции Senseval, обычно предпринимается специальная процедура.

Прежде всего, многозначные слова классифицируются по их частотности (в Британском национальном корпусе) и уровню их многозначности по WordNet (Kilgarriff, Rosenzweig, 2000; Michalcea и др., 2004). Для каждой части речи (существительное, глагол, прилагательное) списки, упорядоченные по частоте и многозначности, были поделены на 4 подгруппы, тем самым получилась решетка 4><4. Далее была установлена величина набора образцов -40 слов, которые были набраны из ячеек решетки в соответствии с количеством слов в каждой ячейке решетки.

Количество примеров из корпуса для каждого образца также базировалось на полученной решетке. Для простых слов (с низкой частотностью и многозначностью) меньшее количество примеров из корпуса было достаточно. Более частотные и более многозначные слова являются более сложными для процедуры разрешения многозначности, и поэтому такие слова должны были быть обеспечены большим количеством примеров из корпуса.

При ручной разметке примеров эксперт-лексикограф имеет возможность выбрать одно из возможных значений слова плюс две дополнительные возможности - «неясно» и «ни одно из вышеперечисленных». Была также возможность выбора двух и более значений в случае необходимости.

Для определения качества работы программ в этом задании было выбрано три уровня гранулярности: подробный, обобщенный и смешанный.

На подробном уровне гранулярности засчитывается только единственная совпадающая метка значения. На обобщенном уровне гранулярности все подзначения (обозначенные как 1.1, 1.2) собирались к меткам основных значений (таких как 1, 2) и в эталонном файле, и файле автоматических результатов, т. е. выбор системой значения 1.1 рассматривается как правильный, если в эталонном файле содержатся отметки значений 1, 1.1 или 1.2. На третьем -смешанном - уровне гранулярности засчитывались те ответы систем, которые совпадали или были подвидом значений, указанных в эталонном файле.

Результаты Senseval-З для задания разрешения многозначности для заданного набора многозначных слов по англоязычной коллекции составили около 72% точности для подробного уровня гранулярности, около 79% - для обобщенного уровня гранулярности. Выбор наиболее частотного значения составил 55.2% точности для подробного уровня, 64.5% для обобщенного уровня гранулярности значений.

Для решения этой задачи применяются в основном методы машинного обучения, использующие примеры, предоставленные организаторами, а также корпус SemCor, размеченный по значениям WordNet. В число методов, используемых для задания «набор многозначных слов», входят такие методы машинного обучения, как метод SVM (Support Vector Machines), Метод ближайших соседей, Деревья решений, Решающие списки, Байесовские классификаторы, Нейронные сети и др. В качестве признаков, на основе которых происходит обучение, используются: совместная встречаемость слов, коллокации (устойчивые выражения), биграммы, части речи, отношения между предикатом и его аргументами (подлежащее, дополнения) и др. Лучшие системы Senseval-З используют комбинации нескольких классификаторов. Это показывает, что схемы голосования результатов, комбинирующие несколько алгоритмов, работают лучше, чем отдельные классификаторы (Pedersen, 2000).