Войти



Последние материалы

Золотые партнеры:

Медицинская мини-энциклопедия - ларингит. Экстракт подорожника.

Серебряные партнеры:

Банкет, фуршет, пикник, теплоходы: доставка обедов москва. . аренда офиса новослободская

Бронзовые партнеры:

Основные принципы разработки лингвистических ресурсов для приложений информационного поиска
Статьи
Автор: Лукашевич Н.В.   
07.11.2011 04:50

Основные принципы разработки лингвистических ресурсов для приложений информационного поиска

Современные приложения информационного поиска работают в широких предметных областях. Если мы хотим создавать лингвистические и терминологические ресурсы для использования в приложениях информационного поиска, то эти ресурсы должны иметь очень широкое покрытие используемой лексики и также иметь возможность применяться в автоматических режимах обработки документов и запросов.

В предыдущих главах мы рассмотрели различные лингвистические и онтологические ресурсы. Все из них имеют некоторые проблемы при использовании их как ресурсов в рамках решения задач информационного поиска.

Традиционные информационно-поисковые тезаурусы создавались как инструмент для помощи человеку, их структура направлена на предоставление удобств индексатору (удаление слишком конкретных терминов, удаление близких по смыслу терминов, добавление комментариев по употреблению тех или иных дескрипторов). В связи с этим при использовании традиционных информационно-поисковых тезаурусов в автоматической обработке текстовой информации возникают существенные проблемы. В литературе предлагается использовать методы машинного обучения для проставления дескрипторов тезауруса по уже проиндексированному людьми множеству документов, создание которого представляется чрезвычайно дорогой процедурой.

Формальные онтологии, одним из провозглашаемых принципов которых является независимость от конкретного языка, сложно использовать в автоматической обработке текстов для приложений информационного поиска, поскольку для этого единицы формальной онтологии необходимо связать с единицами конкретного естественного языка. Кроме того, стремление к четкой формализации отношений между понятиями формальной онтологии чрезвычайно трудно соблюсти в ситуации, когда необходимо создавать сверхбольшие ресурсы, и, кроме того, оно приводит к проблемам при установлении связей «понятие - языковое выражение».

Использование онтологии с большим количеством отношений, например MikroKosmos или CYC, связано с двумя проблемами. Во-первых, для новой предметной области создать такой ресурс чрезвычайно сложно, дорого и требует много времени. Во-вторых,  большое количество отношений в таких ресурсах может привести к снижению качества автоматической обработки текстов, поскольку в конкретном контексте может быть применима лишь часть описанных отношений - остальные отношения могут приводить к лишним или ложным выводам. При пом автоматически оценить применимость отношений по контексту чрезвычайно сложно.

Ресурсы типа WordNet создаются для описания лексики языка в соответствии с лингвистическими традициями. Но любая информационная система имеет дело не только с общей лексикой, но и с конкретными предметными областями и их терминологиями. Анализируя попытки создать терминологические ресурсы на основе WordNet (см. «Терминология предметных областей в тезаурусах типа WordNet», «Модели представления знаний в информационно-поисковых тезаурусах и тезаурусах типа WordNet»), следует отметить, что структура WordNet не приспособлена для описания терминологий. Раздельное описание частей речи, слишком большой набор не связанных между собой значений, недостаточная проработанность принципов включения многословных выражений - все это приводит к проблемам разработки и использования терминологических ресурсов, созданных на базе модели WordNet.

Вместе с тем, в каждом из УТИХ ТИПОВ ресурсов есть те качества, которые должны присутствовать в большом лингвистическом ресурсе для информационно-поисковых приложений, и, таким образом, мы считаем, что ресурс для автоматической обработки текстов в информационно-поисковых приложениях в широких предметных областях должен сочетать принципы различных традиций и методологий:

-        методологии разработки традиционных информационно-поисковых тезаурусов;

-        методологии разработки лингвистических ресурсов типа WordNet (Принстонский университет);

-        методологии созданий формальных онтологии.

Поясним необходимость использования этих методологий и их особенности подробнее.

Поскольку важно уметь описывать терминологию широких предметных областей, то необходимо использовать опыт разработки информационно-поисковых тезаурусов, а именно:

-        информационно-поисковый контекст;

-        единицы ресурса создаются на основе значений терминов;

 

-        описание большого числа многословных выражений, принципы -включения (невключения) многословных единиц;

-        небольшой набор отношений между понятийными единицами.

Так как предполагается использовать лингвистический ресурс в автоматическом режиме обработки текстов, то необходимо использовать методологию разработки лексических ресурсов типа WordNet, в которой важны следующие положения:

понятийные единицы создаются на основе значений реально существующих языковых выражений;

многоступенчатое  иерархическое  построение  лексико-терминологической системы понятий;

принципы описания значений многозначных слов и выражений.

Из методологии разработки формальных онтологии важны следующие положения:

- разработка лингвистической онтологии как иерархической системы понятий;

использование для описания отношений формально определяемых отношений с формальными свойствами;

в качестве аксиом (правил вывода) использование свойств транзитивности и наследования таксономических отношений и транзитивности отношений онтологической зависимости. Именно пи принципы положены в основу разработки нескольких больших ресурсов для информационного поиска: Общественно-политического тезауруса, Тезауруса русского я$ыка РуТез (Loukachcvitch, Dobrov, 2002; Лукашевич, Добров, 2002), Онтологии по Естественным наукам и технологиям ОЕНТ (Добров и др.. 2005; Добров, Лукашевич, 2006) и ряда других.

Вышеперечисленные ресурсы имеют одинаковую структуру. Они являются онтологиями, поскольку описывают понятия внешнего мира и отношения между ними, которые устанавливаются в соответствии с требованием правомочности расширения запроса по иерархии связей при информационном поиске.

Эти ресурсы принадлежат к особому классу онтологии. 1ак называемым лингвистическим онтологиям (см. «Принцип независимости онтологии от естественного языка. Лингвистические онтологии»), поскольку введение понятий в значительной мере мотивируется значениями языковых единиц, относящихся к предметной области ресурса. В то же время они являются тезаурусами, поскольку каждое понятие связано с набором языковых выражений (слов, терминов, словосочетаний), которыми по понятие может быть выражено в тексте, - такой набор текстовых входов понятий необходим для использования онтологии для автоматической обработки текстов.

Основным лингвистическим ресурсом, разработанным на основе упомянутых принципов, является тезаурус русского языка РуТез, и в следующих разделах будут подробно рассмотрены структура и характеристики этого ресурса.