Войти



Последние материалы

Золотые партнеры:

VES VMD-2: сушилка для грибов купить. Покупка/продажа всего на свете.

Серебряные партнеры:

Строительная бригада способна. Требуется дорожно-строительная бригада.

Бронзовые партнеры:

Проект Meaning
Статьи
Автор: Лукашевич Н.В.   
04.10.2011 10:13

Проект Meaning

Европейский проект Meaning является продолжением проекта EuroWordNet (Atserias и др., 2004; Castillo и др., 2004). Создатели проекта Meaning мотивируют необходимость продолжения работ в данном направлении тем, что десятки человеко-лет были затрачены на создание ворднетов для разных языков, но этих усилий недостаточно, чтобы обеспечить качество многоязычных приложений компьютерной обработки текстов.

Прогресс в этой области связан с решением двух промежуточных задач: автоматическое разрешение лексической многозначности и масштабное обогащение лексических баз знаний.

Проблема, однако, заключается в том, что существуют взаимозависимые факторы:

1)      для того чтобы достичь качественного разрешения лексической многозначности, необходимо значительно больше лингвистических и семантических знаний, чем имеется в текущих лексических базах знаний (к примеру, в ворднетах),

2)      чтобы обогатить существующие лексические базы знаний, необходимо получать информацию из текстовых корпусов с качественной семантической разметкой.

В проекте планировалось выполнить три последовательных цикла масштабного разрешения лексической многозначности и извлечения знаний для пяти европейских языков, включая баскский, испанский, итальянский, голландский и английский языки. Последовательные циклы работ должны были состоять из следующих этапов (Bentivogli и др., 2003; Atserias и др., 2004):

-        разработка и обучение высокоточных автоматических систем разрешения лексической многозначности и разметка с помощью этих систем сверхбольших корпусов;

-        использование частично размеченных данных и лингвистических процессоров для пополнения знаний в ворднетах;

-        дополнительное обучение систем разрешения лексической многозначности.

Данные работы должны привести к пополнению лингвистической информации на основе обработанного корпуса, а также к многоуровневой лингвистической аннотации самого корпуса. Накопленные знания должны храниться в Многоязычном Центральном Репозитории.