| Проблема вариантности терминов и автоматическое индексирование. Часть 2 |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 03.10.2011 15:27 | |||
Проблема вариантности терминов и автоматическое индексирование. Часть 2.Синтаксические трансформации включают следующие виды: - слабые синтаксические трансформации, при которых происходит замена предлога внутри термина (drying by vacuum, drying under vacuum) или включение определителей: артиклей или указательных местоимений (milk from cows - milk from these cows); -трансформации включения, когда прилагательное или наречие помещаются внутри термина. Также допускается вставка в термин более сложной последовательности слов: legislation in production -legislation in certain areas of production; -трансформации координации, при которой внутрь термина вставляется фрагмент сочинительной конструкции (transfer of energy -transfer of mass and energy). Морфосинтаксические трансформации включают случаи, когда хотя бы одно слово термина перешло в другую часть речи и одновременно возможно произошла синтаксическая трансформация. Различаются четыре вида таких трансформаций: - переход прилагательного в существительное, - переход существительного в прилагательное, - переход существительного в однокоренное существительное, - переход существительного в глагол. Проведенные эксперименты показали 78% точности распознавания исходных терминов в случае синтаксических трансформаций. Оценка морфосинтаксических трансформаций показала, что их точность значительно меньше и составляет 54.7% точности. Таким образом, естественной платой за более гибкое сопоставление дескрипторов тезауруса с документами является снижение точности распознавания единиц тезауруса. Авторы работы (Nenadic и др., 2004) пишут об улучшении качества извлечения терминов на базе учета орфографических и морфологических вариантов, аббревиатур и указывают на проблемы работы с предложными и сочинительными конструкциями, поскольку среди предложных конструкций имеется множество нетерминологических конструкций, что увеличивает шум при извлечении терминов, а нормализация сочинительных конструкций порождает множество лишних вариантов. Tags: Проблема вариантности терминов и автоматическое индексирование Информационно-поисковые тезаурусы в приложениях автоматической обработки документов тезаурусы
|