Войти



Последние материалы

Золотые партнеры:

кованые калитки

Серебряные партнеры:

Туры в Италию. Выгодные цены - горнолыжные туры в Италию. . итальянские кухни

Бронзовые партнеры:

Словосочетания в WordNet и ворднетах других языков. Часть 2.
Статьи
Автор: Лукашевич Н.В.   
04.10.2011 10:21

Словосочетания в WordNet и ворднетах других языков. Часть 2.

 

Решение лингвиста обычно связано с тем, насколько большой объем знаний о мире, не выводимый из компонентов словосочетаний, ассоциируется с этим словосочетанием.

Чтобы дать возможность описывать в ворднетах необходимые словосочетания, в работе (Bentivogli, Pianta, 2004) предлагается вводить специальную структуру для представления свободных словосочетаний, которые создатели работы называют фразовым синсетом (phraseset) и которая может объединять множество синонимичных словосочетаний.

До введения таких структур в итальянском ворднете MultiWordNet при обнаружении лексических пропусков в итальянском языке по отношению к английскому языку заводился пустой синеет, снабженный комментарием, фразовые синсеты могут дать дополнительную важную информацию для работы с такими лексическими пропусками. Так, например, в итальянском ворднете MultiWordNet при установлении соответствия англоязычному синсету toilet roll (рулон туалетной бумаги, туалетный рулон) создается пустой синеет, а также создается фразовый синеет. А для англоязычного синсета dishcloth (полотенце для посуды) в MultiWordNet имеются как синеет, так и фразовый синеет:

 

1)      Engsynset   {toilet roll]

Itasynset     {GAP}

I ta_phraseset      {rotolodicartaigienica}

2)      Engsynset   {dishcloth}

Itasynset     {canovaccio}

Ita_phraset {strofinaccio dei_piatti, strofinaccio da cucina}

Для описания внутренней структуры словосочетания разработчики MultiWordNet предлагают описывать отношение composed-of (состоять из), которое соединяет фразовый синеет со словами-компонентами.

Разработчики баскского ворднета (Agirre и др., 2006) вводят в свой ресурс пока только фразеологические словосочетания, которые зафиксированы в толковых словарях, и помечают введенные синсеты специальной отметкой. Для описания отношений синсета-словосочетания разработчики баскского ворднета предлагают использовать набор отношений INVOLVED, взятый из номенклатуры отношений EuroWordNet и используемых для описания ролей процессов и действий, например, как отношения involvedtheme, involvedinstrument и др. Текущая версия баскского ворднета включает 356 синтагматических синсетов. Итальянский ворднет Multiword-Net включает 1216 фразовых синсетов.

Таким образом, можно констатировать, что пока некоторого единого решения, как правильно поступать с включением словосочетаний в ворднеты, не выработано.