| Терминология предметных областей в тезаурусах типа WordNet |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 04.10.2011 10:24 | |||
Терминология предметных областей в тезаурусах типа WordNetРазрабатываемые ворднеты естественных языков имеют своей целью описание общеупотребительного национального языка. Поэтому считается, что они должны содержать преимущественно общую лексику и не должны включать термины отдельных предметных областей. Однако в Принстонском WordNet можно обнаружить достаточно большое количество терминов из разных сфер деятельности. Ресурс содержит большое количество названий из биологической систематики, термины (инструменты, оборудование) из технической области, термины лингвистики и психолингвистики. Это связано с тем, что разработчики Принстонского WordNet во многом пользовались уже готовыми классификациями и не контролировали содержания вводимых синсетов по текстовым корпусам. При разработке следующих ворднетов большое внимание уделяется обоснованию выбора лексики, значений на основе корпусов своего языка. Предполагается, что для применения созданного ресурса типа ворднет в конкретной предметной области исходный ворднет должен быть расширен терминами этой предметной области, соответствующие синсеты должны быть встроены в иерархии ворднета. Причем высказывается предположение, что добавленные синсеты будут встраиваться на нижних уровнях построенных иерархий, как бы продолжая их (Magnini, Speranza, 2002). Было создано несколько ворднетов в конкретных предметных областях: области архитектуры (Bentivogli и др., 2004), морского судоходства (Roventini, Marinelli, 2004; Marinelli, Tiberi, Bindi, 2008), в юридической области (Sagri и др., 2004), в области медицины (Buitellar, Sacalenau, 2001), экономики (Magnini, Speranza, 2002).
|