| Анализ отношения ассоциации в тезаурусе EUROVOC |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 20.10.2011 05:15 | |||
Анализ отношения ассоциации в тезаурусе EUROVOCОтношение ассоциации является одним из наиболее часто используемых отношений в информационно-поисковых тезаурусах. Как мы уже отмечали, несмотря на попытки экспликации описания отношений в стандартах и руководствах, установление отношения ассоциации является достаточно субъективной процедурой. Кроме того, применение ассоциативных отношений при расширении запроса приводит к серьезному снижению точности поиска. В литературе обычно обсуждается несколько аспектов, связанных с отношением ассоциация. В ряде работ предлагается приписывать различные веса ассоциативным отношениям тезауруса (Tudhope, Taylor, 1997; Chen и др., 1993). Другая часть работ изучает необходимость дополнительной семантической классификации отношений ассоциация (Tudhope и др., 2001; Rada et al., 1991, Леонтьева и др., 1978), а также исследуется зависимость весов ассоциативных отношений при расширении запросов от их семантического типа (Jones, 1993). Вернемся к рассмотренным в статье «Использование отношений между дескрипторами в автоматическом режиме.» примерам ассоциативных отношений из тезауруса EUROVOC: ЗЕМЕЛЬНЫЙ КАДАСТР асц ГРАДОСТРОИТЕЛЬНОЕ ЗАКОНОДА ТЕЛЬСТВО, асц МЕСТНЫЕ НАЛОГИ; асц НАЛОГ НА НЕДВИЖИМОСТЬ; асц РАЗРЕШЕНИЕ НА СТРОИТЕЛЬСТВО. Анализируя выдачу поисковой системы по коллекции стенограмм Государственной Думы РФ по запросу земельный кадастр, мы показали, что если документы этой выдачи использовать при поиске по запросам градостроительное законодательство, местные налоги, налог на недвижимость или разрешение на строительство, то точность выдачи по этим запросам значительно снизится. Рассмотрим, почему же это происходит, чему посвящены другие тексты выдачи, ведь сами по себе представленные отношения не кажутся ошибочными. В стенограммах, полученных по запросу земельный кадастр, обсуждались такие вопросы, как составление Земельного кадастра, регистрация прав на недвижимость, кадастровая стоимость земельного участка, купля-продажа земли и другие вопросы. Таким образом, мы видим, что с земельным кадастром связан ряд разнообразных ситуаций. Только в относительно небольшой части из них земельный кадастр сильно связан с перечисленными выше четырьмя понятиями, а в других связь с этими понятиями отсутствует, тексты же могут обсуждать любую из этих ситуаций, поэтому плохие поисковые характеристики вышеперечисленных ассоциативных связей закономерны. Получается, чтобы сделать ассоциативную связь полезной при автоматическом расширении запроса, необходимо устанавливать такие связи, чтобы они действовали, не пропадали в подавляющем числе ситуаций, в которых участвуют понятие или его конкретные экземпляры. На наш взгляд, именно отношение онтологической зависимости проявляет такую устойчивость, обеспечивает возможность надежной опоры в разнообразных ситуациях, которые могут обсуждаться в связи с той или иной сущностью. Так, нетрудно видеть, что при строгой зависимости зависимое понятие не может быть оторвано от конкретного экземпляра главного понятия, поэтому если возникает, существует, обсуждается конкретный пример такого строго зависимого понятия, то существует и обсуждается пример главного понятия. В случае родовой зависимости конкретный пример зависимого понятия может быть оторван от главного понятия, с ним может происходить что-то не связанное с главным понятием, но обычно недолго и в относительно небольшой доле примеров зависимого понятия. При исторической зависимости пример зависимого понятия может достаточно долго существовать без главного понятия и участвовать в самых разных ситуациях, например, сельскохозяйственная продукция создается в процессе сельскохозяйственного производства, затем продукция значимое время живет «своей жизнью»: перевозится, продается, хранится. Однако многие свойства результата определяются порождающим его процессом. Таким образом, если для каждого понятия в тезаурусе выявлять понятия, находящиеся с ним в отношении онтологической зависимости, отмечать их, например, направленной ассоциацией, то эти отношения можно было бы использовать для автоматического расширения запроса, поскольку они определяют подавляющее количество ситуаций, которые могут случиться с конкретными экземплярами зависимого понятия. Так, понятие ЗЕМЕЛЬНЫЙ КАДАСТР является зависимым понятием от понятия ЗЕМЕЛЬНЫЙ УЧАСТОК (родовая зависимость), поскольку понятие ЗЕМЕЛЬНЫЙ КАДАСТР не может возникнуть, если не существует этого понятия. Если мы опять вернемся к документам, выданным по запросу земельный кадастр, то мы можем видеть, что все эти документы релевантны запросу земельный участок. Другие упомянутые дескрипторы также имеют отношения зависимости: - понятие ГРАДОСТРОИТЕЛЬНОЕ ЗАКОНОДАТЕЛЬСТВО зависит от понятия ГРАДОСТРОИТЕЛЬСТВО, - понятие МЕСТНЫЕ НАЛОГИ зависит от понятия МЕСТНОЕ САМОУПРАВЛЕНИЕ; -понятие РАЗРЕШЕНИЕ НА СТРОИТЕЛЬСТВО зависит от понятия СТРОИТЕЛЬСТВО; - понятие НАЛОГИ НА НЕДВИЖИМОСТЬ зависит от понятия НЕДВИЖИМОСТЬ. Возникает вопрос - как отношения онтологической зависимости между дескрипторами тезауруса связаны с семантическими отношениями (часть, результат, причина, содержание и др.), посредством которых часто предполагается улучшить качество описания ассоциативных отношений в информационно-поисковых тезаурусах (см. также «FrameNet как лингвистическая онтология»). Таким образом, поисковые характеристики в автоматическом режиме любого тезауруса, созданного для ручного индексирования, могут быть улучшены, если его ассоциативные отношения будут проанализированы с точки зрения теории онтологической зависимости: 1) ассоциативные отношения, не являющиеся отношениями онтологической зависимости, помечаются как используемые только в ручном режиме; 2) ассоциативные отношения, представляющие собой отношения онтологической зависимости, получают направление от главного понятия к зависимому понятию; отношения онтологической зависимости между дескрипторами тезауруса, не представленные в виде ассоциативных отношений, должны быть внесены в тезаурус; 3) в некоторых случаях, когда ассоциации соединяют близкие по смыслу понятия, а также в некоторых других, которые мы обсудим ниже, ассоциация действительно является симметричной и может быть использована для автоматического расширения запроса в обе стороны. При использовании тезауруса в автоматическом режиме используются только отношения 2) и 3) в направлении от главного понятия к зависимому понятию. Анализ 100 первых ассоциаций тезауруса EUROVOC, рассмотренных по алфавитному порядку расположения дескрипторов, показал (Loukachevitch, Dobrov, 2004с), что 33 ассоциации представляют собой отношение вышениже и записаны как ассоциации только потому, что в тезаурусе EUROVOC не разрешено два вышестоящих понятия. Таким образом, они явно несимметричны и могут быть использованы в информационном поиске после их разметки, например, АВАРИЯ а ПРОМЫШЛЕННАЯ АВАРИЯ а РАДИАЦИОННАЯ АВАРИЯ а ЯДЕРНАЯ АВАРИЯ 27 ассоциаций представляют собой отношения, которые могут быть использованы только при ручном составлении запроса, поскольку два ассоциированных понятия связаны между собой лишь в части ситуаций, которые могут с ними случиться, например: АВАРИЯ - ЧРЕЗВЫЧАЙНОЕ ПОЛОЖЕНИЕ (далеко не всякая авария приводит к введению чрезвычайного положения, а чрезвычайное положение далеко не всегда возникает из-за аварии). 41 ассоциация представляет собой отношения зависимости и может быть использована в одном из направлений (первое понятие в строчке является зависимым от второго; запрос, содержащий второе понятие, может быть расширен первым понятием): - АБИТУРИЕНТЫ - ВЫСШЕЕ ОБР АЗОВАНЕ\ - АВТОМОБИЛЬНАЯ ПРОМЫШЛЕННОСТЬ- АВТОМОБИЛЬ; - АГЕНТСКОЕ СОГЛАШЕНИЕ - ПОСРЕДНИЧЕСТВО.. 3 ассоциации («истинные ассоциации») представляют собой очень близкие понятия, поэтому поиск может производиться в любом направлении: - АВТОМОБИЛЬНЫЕ ПЕРЕВОЗКИ - АВТОМОБИЛЬНЫЙ ТРАНСПОРТ, - АГРАРНЫЙ СЕКТОР - СЕЛЬСКОЕ ХОЗЯЙСТВО.
Заключение. Отношения онтологической зависимости стали вводиться в онтологические ресурсы относительно недавно и требуют дальнейших исследований. Наиболее часто эти отношения используются в онтологиях верхнего уровня. Это отношение используется в определении понятий-ролей, а также в определении важных подвидов отношения часть-целое. В этой главе мы показали, что отношение онтологической зависимости неявно используется при обсуждении рекомендаций по установлению отношений часть-целое и ассоциация в информационно-поисковых тезаурусах.
|