Войти



Последние материалы

Серебряные партнеры:

кальян купить в москве, купоны.

Бронзовые партнеры:

Тезаурус Роже
Статьи
Автор: Лукашевич Н.В.   
10.09.2011 14:59

 

Ссылки на использование тезаурусов типа Тезауруса Роже в экспериментах по автоматической обработке текстов можно найти в ряде работ (Kennedy, Szpakowicz, 2008; Jarmasz, Szpakowicz, 2003). Однако такое их ис­пользование в компьютерных системах ограничено рядом факторов, которые мы рассмотрим на примере конкретной словарной статьи.

 

Структура словаря типа Тезауруса Роже (Табл. 1.1) обычно включает разделение на категории (например, Land - суша, земля) и подкатегории; подразделение подкатегорий обычно производится на основе разделения по час­тям речи. Слова, следующие за выделенным словом, могут обозначать сино­нимы, родовые и видовые лексемы по отношению к предшествующему вы­деленному слову. Некоторые слова в словарной статье имеют отсылки к дру­гим категориям или подкатегориям тезауруса.

Таблица 1.1 Фрагмент словарной статьи Тезауруса Роже (Roget, 1982)

Land 342


 

N. land, earth, ground, dry land, terra firma


 

continent, mainland, peninsula, chersonese[Fr], delta; tongue of  land, neck of  land;
isthmus, oasis; promontory &c. (projection) 250; highland &c. (height) 206._________

coast, shore, scar, strand, beach; playa; bank, lea; seaboard, seaside, seabank,
seacoast, seabeach[obs3]; ironbound coast; loom of the land; derelict; innings;
alluvium , alluvion[obs3]; ancon._________________________________________

riverbank, river bank, levee


 

soil, glebe, clay, loam, marl, cledge, chalk, gravel, mold, subsoil, clod, clot; rock, crag._______________________________________________________________

V. land, come to land, set foot on the soil, set foot on dry land; come ashore, go ashore, debark


 

Adj. earthy, continental, midland, coastal, littoral, riparian,; alluvial; terrene &c.
(world) 318; landed, predial, territorial; geophilous; ripicolous____________________

Adv. ashore; on shore, on land


 

Обычно отмечаются следующие особенности словарей типа Тезауруса Роже, препятствующие применению таких тезаурусов в автоматической обработке текстов.

Во-первых, в структуре такого тезауруса, в отсылках между категориями заключено большое разнообразие различных типов отношений, которые явным образом не указаны, что затрудняет их использование в приложениях.

Во-вторых, существенным фактором является отсутствие выделенных значений слов. В тех случаях, когда то или иное слово упоминается в разных

разделах тезауруса, это может происходить как из-за того, что в разные разделы попали разные значения слов, так и из-за того, что одно и то же значе­ние слова может быть отнесено в разные категории.

Кроме того, отмечаются проблемы классификации, связанные с жесткой заданностью древовидной структуры категорий тезауруса. Возникают вопро­сы по поводу последовательности решений разделения на категории: какие именно признаки выделять в категории тезауруса, а какие нет.

В связи с перечисленными проблемами тезаурусов типа Тезауруса Роже и в связи с тем, что число публикаций по применению таких тезаурусов для автоматической обработки текстов сравнительно невелико, мы далее не будем подробно рассматривать эксперименты, базирующиеся на использовании такого рода тезаурусов.