Войти



Советуем прочесть

Последние материалы

Золотые партнеры:

Все политические последние новости мира.

Серебряные партнеры:

карта кубани

Бронзовые партнеры:

Отношения между понятиями в тезаурусе РуТез
Статьи
Автор: Лукашевич Н.В.   
13.11.2011 12:17

Отношения между понятиями в тезаурусе РуТез

Отношения между понятиями, описываемые в онтологическом ресурсе, предназначенном для автоматической обработки текстов в рамках информационно-поисковых приложений, должны выполнять разнообразные функции.

Во-первых, эти отношения должны использоваться в классических функциях информационно-поисковых тезаурусов для расширения поискового запроса или вывода рубрики документа.

Во-вторых, отношения важны для разрешения многозначности языковых единиц, включенных в ресурс, поскольку естественным методом реализации автоматической процедуры разрешения многозначности является сопоставление контекста употребления многозначной единицы в тексте и контекста соответствующего понятия в онтологическом ресурсе.

В-третьих, отношения в онтологическом ресурсе могут использоваться для выявления лексической связности в текстах с целью применения выявленной структуры текста для улучшения качества обработки текстов.

Для реализации любой из этих функций необходимо осуществление своеобразного логического вывода: встретив вхождение некоторого понятия в тексте, нужно делать многошаговые проходы по отношениям.

В первых главах мы рассматривали различные онтологические ресурсы, которые в большей или меньшей степени используются при автоматической обработке текста в рамках различных приложений информационного поиска. Эти ресурсы характеризуются разными наборами отношений между своими единицами.

В исходном наборе отношений Принстонского WordNet многие исследователи отмечали нехватку отношений, что проявлялось, например, в возникновении «теннисной проблемы». Сделанная впоследствии жесткая разметка синсетов WordNet областями-доменами до некоторой степени смягчает, но не решает эту проблему.

Такие отношения WordNet, как часть-целое (мероним-холоним), описаны так, что позволяется одновременная принадлежность синсета-части многим синсетам-целым. Это означает, что прежде, чем использовать такого рода отношения для автоматического логического вывода, необходимо установить, о каком целом идет речь в данном контексте, что не всегда возможно.

В большинстве информационно-поисковых тезаурусов используется очень небольшой набор отношений между дескрипторами: отношение выше-ниже и отношение ассоциации.

Как указывалось в в статье «Отношения ассоциации в информационно-поисковых тезаурусах», отношение ассоциации часто рассматривается как проблемное по следующим причинам:

-        по принципам установления это отношение является симметричным, а часто обозначаемые им отношения явно не симметричны,

-        это отношение часто устанавливается субъективно,

-        с этим отношением возникают серьезные проблемы при использовании в автоматических режимах расширения запроса, вывода рубрики и т. п.

Поэтому в литературе имеется много предложений по замене отношения АССОЦИАЦИИ на более подробные наборы отношений, что было реализовано в ряде тезаурусов, например, медицинской тематики.

В последнее время активно обсуждается вопрос о преобразовании существующих информационно-поисковых тезаурусов в более формализованные онтологические ресурсы, с более подробной системой отношений, с возможностью логического вывода на базе аксиом, связанных с каждым отношением. Однако, на наш взгляд, существуют серьезные проблемы на пути преобразования информационно-поискового тезауруса в такого рода онтологию и использование в приложениях информационного поиска, поскольку при автоматическом анализе текста далеко не всегда можно быть уверенным в том, что в тексте упомянуто именно определенное отношение между сущностями, а это значит, что сложные онтологические формализмы, построенные на шатком базисе, не смогут работать эффективно.

Таким образом, мы полагаем, что среди потенциального множества отношений понятия наиболее стабильно можно опираться на те отношения, которые не исчезают, не меняются в течение всего срока существования любого или подавляющего большинства экземпляров понятия (Loukachevitch, Dobrov, 2004а; Лукашевич, Добров, 2004b; Добров, Лукашевич, 2008). Например, любой лес всегда состоит из деревьев.

Наиболее известным типом отношения, которое выполняется для всех экземпляров, является таксономическое отношение. Так, если С1 упомянуто в тексте и С1 является видом С2, это означает, что в тексте упомянуто и С2. Если данный текст релевантен запросу о С1, то он будет релевантен и запросу о С2.

В условиях невозможности использования сложных правил вывода для осуществления вывода по тексту важно найти и описывать в тезаурусе другие типы отношений, которые, с одной стороны, минимально зависят от контекста упоминания понятия, с другой стороны, обладающие свойствами транзитивности и наследования, подобно таксономическим отношениям.