| Тезаурус Роже |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 10.09.2011 14:59 | |||
|
Ссылки на использование тезаурусов типа Тезауруса Роже в экспериментах по автоматической обработке текстов можно найти в ряде работ (Kennedy, Szpakowicz, 2008; Jarmasz, Szpakowicz, 2003). Однако такое их использование в компьютерных системах ограничено рядом факторов, которые мы рассмотрим на примере конкретной словарной статьи.
Структура словаря типа Тезауруса Роже (Табл. 1.1) обычно включает разделение на категории (например, Land - суша, земля) и подкатегории; подразделение подкатегорий обычно производится на основе разделения по частям речи. Слова, следующие за выделенным словом, могут обозначать синонимы, родовые и видовые лексемы по отношению к предшествующему выделенному слову. Некоторые слова в словарной статье имеют отсылки к другим категориям или подкатегориям тезауруса. Таблица 1.1 Фрагмент словарной статьи Тезауруса Роже (Roget, 1982)
Обычно отмечаются следующие особенности словарей типа Тезауруса Роже, препятствующие применению таких тезаурусов в автоматической обработке текстов. Во-первых, в структуре такого тезауруса, в отсылках между категориями заключено большое разнообразие различных типов отношений, которые явным образом не указаны, что затрудняет их использование в приложениях. Во-вторых, существенным фактором является отсутствие выделенных значений слов. В тех случаях, когда то или иное слово упоминается в разных разделах тезауруса, это может происходить как из-за того, что в разные разделы попали разные значения слов, так и из-за того, что одно и то же значение слова может быть отнесено в разные категории. Кроме того, отмечаются проблемы классификации, связанные с жесткой заданностью древовидной структуры категорий тезауруса. Возникают вопросы по поводу последовательности решений разделения на категории: какие именно признаки выделять в категории тезауруса, а какие нет. В связи с перечисленными проблемами тезаурусов типа Тезауруса Роже и в связи с тем, что число публикаций по применению таких тезаурусов для автоматической обработки текстов сравнительно невелико, мы далее не будем подробно рассматривать эксперименты, базирующиеся на использовании такого рода тезаурусов. Tags: Тезаурус Роже
|