Войти



Советуем прочесть

Последние материалы

Золотые партнеры:

Дать объявление на тему "аренда квартир без посредников в Стерлитамаке"

Серебряные партнеры:

http://nedvizhimost.yanao.slando.ru/novyy_urengoy/ - недвижимость Нового Уренгоя . http://nedvizhimost.yanao.slando.ru/noyabrsk/24087_1.html продажа квартир в Ноябрьске.

Бронзовые партнеры:

Проблема вариантности терминов и автоматическое индексирование. Часть 2
Статьи
Автор: Лукашевич Н.В.   
03.10.2011 15:27

Проблема вариантности терминов и автоматическое индексирование. Часть 2.

Синтаксические трансформации включают следующие виды:

-        слабые синтаксические трансформации, при которых происходит замена предлога внутри термина (drying by vacuum, drying under

vacuum) или включение определителей: артиклей или указательных

местоимений (milk from cows - milk from these cows);

-трансформации включения, когда прилагательное или наречие помещаются внутри термина. Также допускается вставка в термин более сложной  последовательности слов:  legislation in production -legislation in certain areas of production; -трансформации координации, при которой внутрь термина вставляется   фрагмент  сочинительной   конструкции   (transfer of energy -transfer of mass and energy). Морфосинтаксические трансформации включают случаи, когда хотя бы одно слово термина перешло в другую часть речи и одновременно возможно произошла синтаксическая трансформация. Различаются четыре вида таких трансформаций:

-        переход прилагательного в существительное,

-        переход существительного в прилагательное,

-        переход существительного в однокоренное существительное,

-        переход существительного в глагол.

Проведенные эксперименты показали 78% точности распознавания исходных терминов в случае синтаксических трансформаций. Оценка морфосинтаксических трансформаций показала, что их точность значительно меньше и составляет 54.7% точности. Таким образом, естественной платой за более гибкое сопоставление дескрипторов тезауруса с документами является снижение точности распознавания единиц тезауруса.

Авторы работы (Nenadic и др., 2004) пишут об улучшении качества извлечения терминов на базе учета орфографических и морфологических вариантов, аббревиатур и указывают на проблемы работы с предложными и сочинительными конструкциями, поскольку среди предложных конструкций имеется множество нетерминологических конструкций, что увеличивает шум при извлечении терминов, а нормализация сочинительных конструкций порождает множество лишних вариантов.