| EuroWordNet и тезаурусы типа WordNet для разных языков |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 04.10.2011 09:11 | |||
EuroWordNet и тезаурусы типа WordNet для разных языков.Идея создания тезаурусов типа WordNet (далее будем называть их ворднетами) для своих языков показалась привлекательной исследователям во многих странах. Разработчиков новых ворднетов можно разделить на две категории. Часть разработчиков считает, что важным делом является точное воспроизведение структуры и состава англоязычного WordNet (обычно называемого Принстонский WordNet по месту работы его авторов), поскольку предполагается, что таким образом обеспечивается более тесная связь с англоязычным ресурсом и лексической системой английского языка. При этом подходе синсеты нового ворднета создаются на основе синсетов Принстонского WordNet, отношения между синсетами копируются. Такая разработка рассматривается как более быстрая, легкая, порождает структуру, совместимую с англоязычным ворднетом. Часто значительная часть работы производится автоматизированными методами на основе двуязычных электронных словарей (Farreres и др., 1998). Но одновременно такой ворднет может унаследовать недостатки исходного ворднета, неточности могут усилиться, могут быть перенесены чуждые создаваемому ворднету отношения. По этой модели создавались такие ворднеты, как испанский ворднет, баскский ворднет, один из ворднетов итальянского языка MultiWordNet. Другие разработчики полагают, что для создания качественного ресурса собственного языка необходимо учесть специфику его лексической системы, а также учесть критику и проблемы Принстонского WordNet. При таком подходе разработчики развивают собственную структуру синсетов, руководствуясь общими принципами построения ворднетов. Такой метод использовался при создании таких ворднетов, как голландский, немецкий и датский ворднеты, тезаурус русского языка RussNet (Азарова и др., 2003; Азарова и др., 2004). Для некоторых языков появляется два ресурса типа тезаурус WordNet, созданных на основе упомянутых подходов. Например, для итальянского языка один тезаурус ItalWordNet (Roventini и др., 2000) сделан в рамках проекта EuroWordNet, в котором было введено значительное количество нововведений, а другой MultiWordNet (Pianta и др., 2002) копирует структуру англоязычного WordNet. Также две разные программы действий провозглашают разработчики русских ворднетов (Сухоногое, Яблонский, 2005; Азарова и др., 2003).
|