Войти



Последние материалы

Золотые партнеры:

поликарбонат цена

Серебряные партнеры:

Свободные вакансии: производство дверей. Стальные двери от 7 500 под ключ. . продажа домов в хосте

Бронзовые партнеры:

WordNet: основные принципы
Статьи
Автор: Лукашевич Н.В.   
04.10.2011 07:19

WordNet: основные принципы

Создатель WordNet Джордж Миллер формулирует главные гипотезы, лежащие в основе разработки WordNet, таким образом:

-        гипотеза отделимости: описание лексического компонента естественного языка может быть отделено от других уровней (морфологического, синтаксического);

-        гипотеза «образца»: существует такое формальное описание слов, которое может быть применено к большинству слов языка;

-        гипотеза о покрытии: для эффективного использования компьютерного словаря в приложениях автоматической обработки текстов, такие словари должны быть очень большой величины.

Основным отношением в тезаурусе WordNet является отношение синонимии. Наборы синонимов - синсеты - являются основными структурными единицами тезауруса WordNet.

Понятие синонимии, используемое создателями WordNet, базируется на критерии, что два выражения являются синонимичными, если замена одного из них на другое в предложении не изменяет значения истинности этого выражения.

При этом не требуется заменяемости синонимов во всех контекстах - по такому критерию в естественном языке было бы слишком мало синонимов. Используется более слабое утверждение, что синонимы тезаурусе WordNet должны быть взаимозаменимы хотя бы в некотором множестве контекстов. Например, замена plank (доска, планка) для слова board (доска) редко меняет значение истинности в контексте плотницкого дела, но существуют контексты, где такая замена не может считаться приемлемой.

Именно определение синонимии в терминах заменимости делает необходимым разделение тезауруса WordNet на отдельные подструктуры по частям речи. Лексемы различных частей речи (существительные, прилагательные, глаголы, наречия) хранятся отдельно и описания, соответствующие каждой части речи, имеют разную структуру.

Синеет может рассматриваться как представление лексикализованного понятия (концепта) английского языка. Создатели ресурса считают, что синеет существительных представляет понятия существительных, глаголы выражают глагольные концепты, прилагательные - концепты прилагательных и т.д. Помимо этого, предполагается, что такое разделение соответствует психолингвистическим экспериментам, показывающих, что представление информации о прилагательных, существительных, глаголах и наречиях устроено в человеческой памяти по-разному.

Большинство синсетов снабжены толкованиями, подобными толкованиям в традиционных словарях, - это толкование рассматривается как одно и то же для всех синонимов синсета. Если слово имеет несколько значений, то оно входит в несколько различных синсетов.

Для установления отношений между синсетами используется метод лингвистических тестов. При таком методе каждому потенциальному лексическому отношению между словами X и Y сопоставляются высказывания, сформулированные на естественном языке и содержащие в качестве компонентов X и Y. Если составленное диагностическое высказывание для слов X и Y истинно, то соответствующее лексическое отношение между этими словами может быть установлено.