| Проблемы родовидовых отношений WordNet |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 04.10.2011 08:51 | |||
Проблемы представления лексической информации в WordNet:Проблемы родовидовых отношений WordNetОсновным принципом установления отношений в WordNet было применение так называемых диагностических высказываний. В частности, для установления отношений гипоним-гипероним использовалось проверочное высказывание: An X is a (kind of) Y (X - это Y). Однако в процессе экспериментов и дискуссий выяснилось, что такому высказыванию могут удовлетворять несколько совершенно разных отношений между синсетами (Miller, 1998). Одной из серьезных проблем, приводящих к неправильным путям иерархии и, следовательно, препятствующих применению в приложениях автоматической обработки текстов, является проблема установления таких отношений, когда вышестоящее понятие частично характеризует нижестоящее. Часто это связано с проблемой смешения понятий-типов и понятий-ролей. Указывая на смешение типов и ролей в WordNet, Н. Гуарино (Guarino, 1998) привел следующие примеры описания из WordNet: Человек - это живое существо и каузальный агент. Яблоко - это фрукт и еда. Н. Гуарино указывает, что каждое из этой пары отношений отличается от другого: человек всегда живое существо, но он (она) начинает играть роль каузального агента только в некоторых ситуациях. Та же проблема возникает для яблока, которое всегда плод растения и в некоторых ситуациях может быть пищей: «Проблема в том, что человек и яблоко - это типы сущностей, в то время как каузальный агент и пища - это роли». Один из аргументов в пользу различения типов и ролей в лингвистических онтологиях - это то, что они различаются в способах наследования свойств. WordNet не различает эти два типа понятий и помещает их в одни и те же иерархии. В соответствии с онтологическими подходами, понятия-типы не должны находиться в иерархиях ниже понятий-ролей. Более радикальный подход заключается в том, чтобы разделить иерархии типов и ролей. Одна из авторов WordNet К. Фелбаум (Fellbaum, 2002), отвечая на эту критику Н. Гуарино, заявляет, что в таких ресурсах, как WordNet, неоднородные классификации имеют право на существование, поскольку такие ресурсы рассматриваются в настоящее время прежде всего как инструменты для компьютерной обработки текстов, а не только как совершенные онтологии, которые должны соответствовать строгим онтологическим принципам. Вместе с тем важно подчеркнуть, что установление связей между синсетами, которые выполняются не в любых контекстах, а лишь при некоторых условиях, приводит к ложному срабатыванию этих связей, к неправильному выводу как раз при автоматической обработке текстов. Используемые диагностические высказывания для установления отношений между гипонимами и гиперонимами привели к смешению и других отношений. Дело в том, что в первых версиях WordNet не делалось различий между синсетами - категориями классов как множествами сущностей, имеющих между собой общие свойства, например, как синеет state, nation (государство), и экземплярами классов, т. е. конкретных сущностей, например, таких как синеет United States, United States of America (США. По этой причине отношения между классами и отношения экземпляр-класс обозначались одинаково. Такое неразличение стало предметом критики со стороны разработчиков онтологии (Gangemi и др., 2001а; Oltramari и др., 2002). Первоначально создатели WordNet не предполагали менять структуру WordNet (Miller, Hristea, 2006), поскольку считали, что WordNet - это лексический, а не онтологический ресурс. Однако со временем рост значимости онтологических исследований, а также сходство иерархии существительных из WordNet с онтологией стали очевидными. В результате были предприняты усилия по разметке синсетов существительных как экземпляров и как классов, а также различению отношений между классами и отношениями экземпляр-класс (Miller, Hristea, 2006). Для автоматизации проведения уточненной разметки было выдвинуто предположение, что синсеты-экземпляры должны обладать следующими тремя свойствами: - это должны быть синсеты существительных, - синсеты должны содержать слова с прописной буквы, - будучи уже конкретными сущностями, синсеты-экземпляры не должны иметь гипонимов. Таких синсетов оказалось 24073, причем выяснилось, что есть достаточное количество синсетов, удовлетворяющих этим требованиям, но при этом являющихся обозначением классов понятий. Поэтому создатели рассмотрели все выделенные синсеты и вручную разметили их как классы или экземпляры классов. В частности, выявились интересные случаи классов и экземпляров, потребовавшие отдельного рассмотрения. Основным критерием разметки было существование единственного референта для синсета. Так, Бетховен как композитор - это экземпляр класса, а Бетховен как музыка («играть Бетховена») - это класс, поскольку относится к классу музыкальных произведений. Если слово имеет конкретное число денотатов (два, три и т. д., что означает многозначность слова), то все соответствующие синсеты размечаются как экземпляры, как, например, Bethlehem на Ближнем востоке и Bethlehem в Пенсильвании. Одной из проблем разметки была разметка синсетов, соответствующих естественным языкам. В частности, возник вопрос, являются ли конкретные диалекты языка экземплярами класса. Было решено, что с онтологической точки зрения языки - это не экземпляры классов, экземплярами являются конкретные речевые акты. Сложным случаем оказалась также разметка синсетов, соответствующих священным текстам, таким как Библия, Коран и другие. Для данного случая было решено, что сами синсеты священных текстов рассматриваются как классы, а их конкретные версии являются их экземплярами. Названия конкретных денежных единиц были размечены как классы, например, синеет гонконгский доллар не является экземпляром синсета доллар. В итоге всего 7671 синсетов были признаны синсетами-экземплярами. Все выявленные отношения экземпляр-класс были размечены специальным образом. Результаты разметки стали доступны пользователям в версии WordNet 2.1. Tags: Проблемы представления лексической информации в WordNet:Проблемы родовидовых отношений WordNet wordnet
|