| Нехватка информации о языке предметной области |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 03.10.2011 16:29 | |||
Нехватка информации о языке предметной областиНехватка информации о языке предметной области в информационно-поисковых тезаурусах проявляется по-разному. Во-первых, некоторые дескрипторы снабжены подробными правилами их использования, которые предназначаются для индексаторов, и наличие этих правил говорит о том, что в текстах предметной области те же термины употребляются по-другому. Так документ может относиться к статистическим данным, но дескриптор STATISTICAL DATA тезауруса UNBIS используется только тогда, когда документ действительно использует статистические данные, а не просто упоминает их. Во-вторых разработчики тезаурусов предпочитают не включать в синонимичные ряды дескрипторов синонимы, которые являются очевидными для человека, однако для компьютера эти варианты должны быть обозначены. Так, например, дескриптор ОХРАНА ОКРУЖАЮЩЕЙ СРЕДЫ кроме указанных в тезаурусе EUROVOC вариантов может быть показан также следующими словами и терминами, которые не описанны в тезаурусе, но встречающимися в документах российских правовых актов: защита природы, природоохранный, природоохранительный (деятельность, процесс), дескриптор ОХРАНА ЛЕСОВ - защита лесов, защита лесного фонда (деятельность, лесоохрана, лесоохранный; дескриптор СУДЕБНЫЕ РАСХОДЫ - судебные издержки, дескриптор РАСХОДЫ НА ОБОРОНУ - оборонные расходы, военный бюджет, оборонный бюджет, и еще сотни примеров. В третьих разработчики тезаурусов в своем изложении иерархии понятий стараются остановиться на достаточно высоком уровне иерархии и не включать более конкретные термины. Так, в тезаурусе EUROVOC отсутствуют такие конкретные термины, как минтай, солдаты, пшеница. Между тем, например, среди законодательных актов широко представлены такие документы, в которых обсуждаются солдаты, но нет слова военнослужащий, обсуждается пшеница, но нет слова зерно, обсуждается минтай, но нет слова рыба и т. п. Такие тексты не могут проиндексироваться правильно из-за нехватки информации в тезаурусе. Наконец, в традиционном информационно-поисковом тезаурусе не указана неоднозначность многих терминов, описанных в тезаурусе только в одном из значений, все это несущественно для человека-индексатора, но крайне необходимо для автоматической обработки.
Примеры неоднозначных терминов тезауруса, включенных в русскую версию EUROVOC в одном значении, таковы: кожа (как кожевенная продукция и кожа человека), печать (как СМИ, как штамп, как процесс печатания), питание (еда и электрическое питание), корма (питание животных и часть корабля), образование (как обучение и как создание чего-либо). Средства описания и работы с многозначностью лексики необходимы для любого ресурса, использующегося для автоматической обработки текстов. Для преодоления различий между реальными текстами и информационно-поисковыми тезаурусами при автоматическом индексировании необходимо применять алгоритмы. Однако нужно отметить, что такая процедура автоматического индексирования является по сути процедурой автоматической рубрикации по сверхбольшому рубрикатору, качественная реализация которой чрезвычайно сложна. Tags: Использование информационно-поисковых тезаурусов в автоматической обработке текстов Нехватка информации о языке предметной области тезаурусы
|