| Словосочетания в WordNet и ворднетах других языков. Часть 2. |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 04.10.2011 10:21 | |||
Словосочетания в WordNet и ворднетах других языков. Часть 2.
Решение лингвиста обычно связано с тем, насколько большой объем знаний о мире, не выводимый из компонентов словосочетаний, ассоциируется с этим словосочетанием. Чтобы дать возможность описывать в ворднетах необходимые словосочетания, в работе (Bentivogli, Pianta, 2004) предлагается вводить специальную структуру для представления свободных словосочетаний, которые создатели работы называют фразовым синсетом (phraseset) и которая может объединять множество синонимичных словосочетаний. До введения таких структур в итальянском ворднете MultiWordNet при обнаружении лексических пропусков в итальянском языке по отношению к английскому языку заводился пустой синеет, снабженный комментарием, фразовые синсеты могут дать дополнительную важную информацию для работы с такими лексическими пропусками. Так, например, в итальянском ворднете MultiWordNet при установлении соответствия англоязычному синсету toilet roll (рулон туалетной бумаги, туалетный рулон) создается пустой синеет, а также создается фразовый синеет. А для англоязычного синсета dishcloth (полотенце для посуды) в MultiWordNet имеются как синеет, так и фразовый синеет:
1) Engsynset {toilet roll] Itasynset {GAP} I ta_phraseset {rotolodicartaigienica} 2) Engsynset {dishcloth} Itasynset {canovaccio} Ita_phraset {strofinaccio dei_piatti, strofinaccio da cucina} Для описания внутренней структуры словосочетания разработчики MultiWordNet предлагают описывать отношение composed-of (состоять из), которое соединяет фразовый синеет со словами-компонентами. Разработчики баскского ворднета (Agirre и др., 2006) вводят в свой ресурс пока только фразеологические словосочетания, которые зафиксированы в толковых словарях, и помечают введенные синсеты специальной отметкой. Для описания отношений синсета-словосочетания разработчики баскского ворднета предлагают использовать набор отношений INVOLVED, взятый из номенклатуры отношений EuroWordNet и используемых для описания ролей процессов и действий, например, как отношения involvedtheme, involvedinstrument и др. Текущая версия баскского ворднета включает 356 синтагматических синсетов. Итальянский ворднет Multiword-Net включает 1216 фразовых синсетов. Таким образом, можно констатировать, что пока некоторого единого решения, как правильно поступать с включением словосочетаний в ворднеты, не выработано.
|