| Введение в тезаурусы в задачах информационного поиска. Часть 6. |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 22.05.2011 16:28 | |||
Введение в тезаурусы в задачах информационного поиска. Часть 6.Существует множество разных определений онтологии. Широкие определения онтологии, позволяющие разные степени формализации описаний, включают в понятие онтологии и упомянутые выше информационно-поисковые тезаурусы, и тезаурусы типа WordNet. Часть исследователей считает, что онтологии должны описывать знания о мире и быть независимыми от конкретного языка. Однако для того, чтобы применить такого рода независимую от языка онтологию в практических задачах информационных технологий, которые во многом связаны с переработкой неструктурированной информации, текстов, необходимо установить отношения между понятиями языковонезависимой онтологии и значениями лексических единиц конкретного естественного языка. Кроме того, часть исследователей подвергают сомнению возможность создания большой онтологии совершенно независимо от естественного языка. Онтологии обычно классифицируются на онтологии верхнего уровня, описывающие наиболее общие знания о мире, и предметные онтологии, описывающие знания о конкретных предметных областях. Так и знания о языке делятся на общеупотребительные («литературный язык») и терминологию конкретной предметной области. Но какой бы текст, принадлежащий значимой предметной области, мы ни взяли, он всегда включает и общеупотребительные языковые единицы, и термины этой предметной области, а понимание этого текста требует как общих знаний о мире, так и знаний в данной конкретной области. На практике же одни исследователи создают онтологии верхнего уровня, другие - онтологии предметных областей; общезначимый язык изучается лингвистами, а термины - языковые единицы конкретных предметных областей - исследуются терминологами. Однако лингвистический ресурс, предназначенный для поддержки автоматической обработки текста в рамках современных информационных технологий, должен каким-то образом совмещать эти разные типы знаний. Более того, для удобства создания того или иного терминологического ресурса, онтологии для некоторой предметной области, исследователи, разработчики считают, что эта область некоторым образом отделима от других предметных областей. Однако современные информационные системы имеют дело со сверхбольшими коллекциями документов, значительная часть которых содержит документы, включающие терминологию разных предметных областей. Так, в экономических документах значимую роль играет терминология правовой области, а в правовых документах - экономическая терминология, в документах по банковскому делу важное место занимает терминология налоговой сферы, бухгалтерии, фондового рынка и т. п. - каким образом в прикладных компьютерных ресурсах оптимально сочетать описание взаимоотношений лексических единиц и описание онтологических знаний о мире; - какая модель описания неструктурированной широкой предметной области наиболее оптимальна для того, чтобы, с одной стороны, создать ее в разумные сроки и охватить всю важную для специалистов терминологию, с другой стороны, чтобы созданная формализованная модель была полезна в широком круге приложений информационного поиска и автоматической обработки текстов; - каким образом оптимально сочетать описание общеупотребительной лексики литературного языка и терминологии конкретной предметной области в формализованных моделях, предназначенных для компьютерных приложений.
|