| Принципы описания отношений |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 13.11.2011 12:29 | |||
Принципы описания отношенийВ результате исследований и экспериментов мы пришли к набору отношений ресурса, предназначенного для эффективной автоматической работы в информационно-поисковых приложениях. В тезаурусе РуТез имеется четыре основных типа отношений. Первый тип отношений - родовидовое отношение ниже-выше, представляет собой отношение класс-подкласс, обладает свойствами транзитивности и наследования. Второе тип отношений - отношение часть-целое. Используется не только для описания физических частей, но и для других внутренних сущностей понятия, таких как свойства или роли для ситуаций. Важным условием при установлении этого отношения является то, что понятия-части должны быть жестко связаны со своим целым, т. е. каждый пример понятия-части должен в течение всего времени своего существования являться частью для понятия-целого и не относиться к чему-либо другому. В этих условиях удается выполнить свойство транзитивности введенного таким образом отношения часть-целое, что очень важно для автоматического вывода в процессе автоматической обработки текстов. Еще один тип отношения, называемого несимметричной ассоциацией асц2-асц1, связывает два понятия, которые не могут быть связаны выше рассмотренными отношениями, но когда одно из которых не существовало бы без существования другого. Например, понятие САММИТ требует существования понятия ГЛАВА ГОСУДАРСТВА. В онтологических исследованиях такое отношение называется отношением онтологической зависимости. Последний тип отношений - симметричная ассоциация - связывает, например, понятия, очень близкие по смыслу, но которые разработчики не решились соединить в одно понятие. Отношения выше-ниже, часть-целое и несимметричная ассоциация являются иерархическими отношениями. Таким образом, на основе свойств иерархичности, транзитивности и наследования для каждого понятия может быть определена совокупность понятий, которые являются для него нижестоящими понятиями по иерархии - так называемое «дерево-вниз», а также может быть определена совокупность понятий, которые являются для него вышестоящими по иерархии - так называемое «дерево-вверх». Эти иерархические деревья не обязательно являются деревьями в строгом математическом смысле слова. Рассмотрим принципы описания отношений в тезаурусе РуТез более подробно. В информационно-поисковых тезаурусах используется очень небольшой набор отношений между дескрипторами: отношение выше-ниже и отношение ассоциации. Как указывалось в в статье «Отношения ассоциации в информационно-поисковых тезаурусах», отношение ассоциации часто рассматривается как проблемное по следующим причинам: - по принципам установления это отношение является симметричным, а часто обозначаемые им отношения явно не симметричны, - это отношение часто устанавливается субъективно, - с этим отношением возникают серьезные проблемы при использовании в автоматических режимах расширения запроса, вывода рубрики и т. п. Поэтому в литературе имеется много предложений по замене отношения АССОЦИАЦИИ на более подробные наборы отношений, что было реализовано в ряде тезаурусов, например, медицинской тематики. В последнее время активно обсуждается вопрос о преобразовании существующих информационно-поисковых тезаурусов в более формализованные онтологические ресурсы, с более подробной системой отношений, с возможностью логического вывода на базе аксиом, связанных с каждым отношением. Однако, на наш взгляд, существуют серьезные проблемы на пути преобразования информационно-поискового тезауруса в такого рода онтологию и использование в приложениях информационного поиска, поскольку при автоматическом анализе текста далеко не всегда можно быть уверенным в том, что в тексте упомянуто именно определенное отношение между сущностями, а это значит, что сложные онтологические формализмы, построенные на шатком базисе, не смогут работать эффективно. Таким образом, мы полагаем, что среди потенциального множества отношений понятия наиболее стабильно можно опираться на те отношения, которые не исчезают, не меняются в течение всего срока существования любого или подавляющего большинства экземпляров понятия (Loukachevitch, Dobrov, 2004а; Лукашевич, Добров, 2004b; Добров, Лукашевич, 2008). Например, любой лес всегда состоит из деревьев. Наиболее известным типом отношения, которое выполняется для всех экземпляров, является таксономическое отношение. Так, если С1 упомянуто в тексте и С1 является видом С2, это означает, что в тексте упомянуто и С2. Если данный текст релевантен запросу о С1, то он будет релевантен и запросу о С2. В условиях невозможности использования сложных правил вывода для осуществления вывода по тексту важно найти и описывать в тезаурусе другие типы отношений, которые, с одной стороны, минимально зависят от контекста упоминания понятия, с другой стороны, обладающие свойствами транзитивности и наследования, подобно таксономическим отношениям.
|