Войти



Советуем прочесть

Последние материалы

Золотые партнеры:

Полный набор бизнес-инструментов: товары для собак интернет магазин. Интернет-магазин товаров.

Серебряные партнеры:

ремонт подушек безопасности

Бронзовые партнеры:

Нехватка информации о языке предметной области
Статьи
Автор: Лукашевич Н.В.   
03.10.2011 16:29

Нехватка информации о языке предметной области

Нехватка информации о языке предметной области в информационно-поисковых тезаурусах проявляется по-разному.

Во-первых, некоторые дескрипторы снабжены подробными правилами их использования, которые предназначаются для индексаторов, и наличие этих правил говорит о том, что в текстах предметной области те же термины употребляются по-другому. Так документ может относиться к статистическим данным, но дескриптор STATISTICAL DATA тезауруса UNBIS используется только тогда, когда документ действительно использует статистические данные, а не просто упоминает их.

Во-вторых разработчики тезаурусов предпочитают не включать в синонимичные ряды дескрипторов синонимы, которые являются очевидными для человека, однако для компьютера эти варианты должны быть обозначены.

Так, например, дескриптор ОХРАНА ОКРУЖАЮЩЕЙ СРЕДЫ кроме указанных в тезаурусе EUROVOC вариантов может быть показан также следующими словами и терминами, которые не описанны в тезаурусе, но встречающимися в документах российских правовых актов: защита природы, природоохранный, природоохранительный (деятельность, процесс), дескриптор ОХРАНА ЛЕСОВ - защита лесов, защита лесного фонда (деятельность, лесоохрана, лесоохранный; дескриптор СУДЕБНЫЕ РАСХОДЫ - судебные издержки, дескриптор РАСХОДЫ НА ОБОРОНУ - оборонные расходы, военный бюджет, оборонный бюджет, и еще сотни примеров.

В третьих разработчики тезаурусов в своем изложении иерархии понятий стараются остановиться на достаточно высоком уровне иерархии и не включать более конкретные термины.

Так, в тезаурусе EUROVOC отсутствуют такие конкретные термины, как минтай, солдаты, пшеница. Между тем, например, среди законодательных актов широко представлены такие документы, в которых обсуждаются солдаты, но нет слова военнослужащий, обсуждается пшеница, но нет слова зерно, обсуждается минтай, но нет слова рыба и т. п. Такие тексты не могут проиндексироваться правильно из-за нехватки информации в тезаурусе.

Наконец, в традиционном информационно-поисковом тезаурусе не указана неоднозначность многих терминов, описанных в тезаурусе только в одном из значений, все это несущественно для человека-индексатора, но крайне необходимо для автоматической обработки.

 

Примеры неоднозначных терминов тезауруса, включенных в русскую версию EUROVOC в одном значении, таковы: кожа (как кожевенная продукция и кожа человека), печать (как СМИ, как штамп, как процесс печатания), питание (еда и электрическое питание), корма (питание животных и часть корабля), образование (как обучение и как создание чего-либо). Средства описания и работы с многозначностью лексики необходимы для любого ресурса, использующегося для автоматической обработки текстов.

Для преодоления различий между реальными текстами и информационно-поисковыми тезаурусами при автоматическом индексировании необходимо применять алгоритмы. Однако нужно отметить, что такая процедура автоматического индексирования является по сути процедурой автоматической рубрикации по сверхбольшому рубрикатору, качественная реализация которой чрезвычайно сложна.