| Задание «Набор многозначных слов» |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 22.10.2011 17:30 | |||
Задание «Набор многозначных слов»Чтобы сформировать набор многозначных слов для тестирования автоматических систем в рамках конференции Senseval, обычно предпринимается специальная процедура. Прежде всего, многозначные слова классифицируются по их частотности (в Британском национальном корпусе) и уровню их многозначности по WordNet (Kilgarriff, Rosenzweig, 2000; Michalcea и др., 2004). Для каждой части речи (существительное, глагол, прилагательное) списки, упорядоченные по частоте и многозначности, были поделены на 4 подгруппы, тем самым получилась решетка 4><4. Далее была установлена величина набора образцов -40 слов, которые были набраны из ячеек решетки в соответствии с количеством слов в каждой ячейке решетки. Количество примеров из корпуса для каждого образца также базировалось на полученной решетке. Для простых слов (с низкой частотностью и многозначностью) меньшее количество примеров из корпуса было достаточно. Более частотные и более многозначные слова являются более сложными для процедуры разрешения многозначности, и поэтому такие слова должны были быть обеспечены большим количеством примеров из корпуса. При ручной разметке примеров эксперт-лексикограф имеет возможность выбрать одно из возможных значений слова плюс две дополнительные возможности - «неясно» и «ни одно из вышеперечисленных». Была также возможность выбора двух и более значений в случае необходимости. Для определения качества работы программ в этом задании было выбрано три уровня гранулярности: подробный, обобщенный и смешанный. На подробном уровне гранулярности засчитывается только единственная совпадающая метка значения. На обобщенном уровне гранулярности все подзначения (обозначенные как 1.1, 1.2) собирались к меткам основных значений (таких как 1, 2) и в эталонном файле, и файле автоматических результатов, т. е. выбор системой значения 1.1 рассматривается как правильный, если в эталонном файле содержатся отметки значений 1, 1.1 или 1.2. На третьем -смешанном - уровне гранулярности засчитывались те ответы систем, которые совпадали или были подвидом значений, указанных в эталонном файле. Результаты Senseval-З для задания разрешения многозначности для заданного набора многозначных слов по англоязычной коллекции составили около 72% точности для подробного уровня гранулярности, около 79% - для обобщенного уровня гранулярности. Выбор наиболее частотного значения составил 55.2% точности для подробного уровня, 64.5% для обобщенного уровня гранулярности значений. Для решения этой задачи применяются в основном методы машинного обучения, использующие примеры, предоставленные организаторами, а также корпус SemCor, размеченный по значениям WordNet. В число методов, используемых для задания «набор многозначных слов», входят такие методы машинного обучения, как метод SVM (Support Vector Machines), Метод ближайших соседей, Деревья решений, Решающие списки, Байесовские классификаторы, Нейронные сети и др. В качестве признаков, на основе которых происходит обучение, используются: совместная встречаемость слов, коллокации (устойчивые выражения), биграммы, части речи, отношения между предикатом и его аргументами (подлежащее, дополнения) и др. Лучшие системы Senseval-З используют комбинации нескольких классификаторов. Это показывает, что схемы голосования результатов, комбинирующие несколько алгоритмов, работают лучше, чем отдельные классификаторы (Pedersen, 2000).
|