Войти



Последние материалы

Золотые партнеры:

Безопасность вашего бизнеса. Выполнение требований 152-ФЗ,

Серебряные партнеры:

строительство загородных домов из бруса . Стол теннисный всепогодный. Всепогодные теннисные столы Start Line.

Бронзовые партнеры:

Онтологии и автоматическая обработка текстов
Статьи
Автор: Лукашевич Н.В.   
06.10.2011 09:11

Онтологии и автоматическая обработка текстов

Как уже указывалось, для того, чтобы сделать автоматическую обработку текстов более качественной и надежной, необходимо использовать знания и о языке, и об окружающем мире. Знания о мире могут быть представлены с помощью онтологии - систем понятий, для которых описаны отношения и заданы правила вывода (Нариньяни, 2001; Рубашкин, Лахути, 1998; Рубашкин, Лахути, 1999).

Чтобы применить онтологию вместе с автоматической обработкой текстов, в частности при решении задач информационного поиска, необходимо терминам в онтологии сопоставлять набор языковых выражений (слов и словосочетаний), которыми понятия могли бы выражаться в текстах.

Процедура сопоставления понятий онтологии языковым выражениям может быть осуществлена разными способами.

Во 1-х, онтология может быть сделана заранее, путем логической классификации, а затем к ее единицам могут быть приписаны языковые единицы (Gruber, 1993). При этом предлагается создавать онтологию путем логического анализа, «сверху-вниз». Имена вводимых понятий должны отражать те признаки, которые заложены в основу деления. В результате имена понятий получаются достаточно громоздкие, неестественные, ими трудно оперировать как разработчикам, так и возможным пользователям.

Иной проблемой такого подхода считается то, что при приписывании языковых выражений к логически обоснованной системе понятий получается, что одно и то же слово может соответствовать слишком большому количеству таких «правильных» понятий в зависимости от контекста, возникает излишняя многозначность лексической единицы.

Поскольку в сегодня существуют тезаурусы типа ворднет, которые содержат большой объем лексической информации, то активно обсуждаются методы автоматического приписывания некоторой формальной онтологии языковых единиц из этих тезаурусов (Reed, Lenat, 2002; Pazienza, Stellato, 2006; Peter и др., 2006; Prevot и др., 2006).

Лингвистические онтологии отличаются от формальных онтологии по степени формализации. Поэтому второй путь предполагает, что разработчики такого рода ресурсов разрабатывают иерархию лексических значений естественного языка, а для более строгого описания знаний о мире необходимо снабдить эти ресурсы отношениями из формальных онтологии.

Так, содержанием одного из проектов является установление отношений между WordNet, с одной стороны, и формальной онтологией верхнего уровня SUMO - Standardized Upper Merged Ontology, с другой стороны. Проект состоит в том, чтобы установить соответствие между синсетами WordNet и понятиями онтологии, при котором каждый синеет WordNet или напрямую сопоставляется с понятием онтологии, или является гипонимом для некоторого понятия, или примером понятия онтологии.

Участники другого проекта OntoWordNet считают, что недостаточно провести формальную склейку ресурса типа WordNet и формальной онтологии, необходима значительная реструктуризация исходного лексического ресурса.

Третий путь - попытаться разработать единый ресурс, в котором были бы сбалансированы обе части: система понятий и система лексических значений, что заключается в разумном разделении этих единиц в создаваемом ресурсе и аккуратном описании их взаимосвязей. При создании такого сбалансированного ресурса ввод понятий в онтологию требует непременного учета существующих лексических значений, то есть необходимо создавать сбалансированный ресурс, который бы являлся лингвистической онтологией.

Поэтому, мы видим, что все обсуждаемые в настоящее время основные пути адаптации созданных формальных онтологии к приложениям автоматической обработки текстов включают в себя сопоставление этих онтологии с лингвистическими онтологиями.

В дальнейших статьях мы опишем лингвистические ресурсы MicroKosmos и FrameNet, которые также могут рассматриваться как лингвистические онтологии и которые понадобятся нам в дальнейшем рассмотрении.