Войти



Последние материалы

Золотые партнеры:

Керамическая плитка viva оптом. Магазин керамической плитки - настенная плитка viva.

Серебряные партнеры:

Компьютерные услуги в Москве - ремонт компьютера.

Бронзовые партнеры:

Терминология предметных областей в тезаурусах типа WordNet
Статьи
Автор: Лукашевич Н.В.   
04.10.2011 10:24

Терминология предметных областей в тезаурусах типа WordNet

Разрабатываемые ворднеты естественных языков имеют своей целью описание общеупотребительного национального языка. Поэтому считается, что они должны содержать преимущественно общую лексику и не должны включать термины отдельных предметных областей.

Однако в Принстонском WordNet можно обнаружить достаточно большое количество терминов из разных сфер деятельности. Ресурс содержит большое количество названий из биологической систематики, термины (инструменты, оборудование) из технической области, термины лингвистики и психолингвистики. Это связано с тем, что разработчики Принстонского WordNet во многом пользовались уже готовыми классификациями и не контролировали содержания вводимых синсетов по текстовым корпусам.

При разработке следующих ворднетов большое внимание уделяется обоснованию выбора лексики, значений на основе корпусов своего языка. Предполагается, что для применения созданного ресурса типа ворднет в конкретной предметной области исходный ворднет должен быть расширен терминами этой предметной области, соответствующие синсеты должны быть встроены в иерархии ворднета. Причем высказывается предположение, что добавленные синсеты будут встраиваться на нижних уровнях построенных иерархий, как бы продолжая их (Magnini, Speranza, 2002).

Было создано несколько ворднетов в конкретных предметных областях: области архитектуры (Bentivogli и др., 2004), морского судоходства (Roventini, Marinelli, 2004; Marinelli, Tiberi, Bindi, 2008), в юридической области (Sagri и др., 2004), в области медицины (Buitellar, Sacalenau, 2001), экономики (Magnini, Speranza, 2002).