| Датский ворднет DanNet |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 04.10.2011 09:56 | |||
Датский ворднет DanNetРазработка датского ворднета началась в 2005 году. В период до 2007 г. планировалось разработать ворднет величиной 40 тысяч понятий, 30 тысяч из которых соответствуют существительным (Pedersen, Sorensen, 2006; Pedersen и др., 2006). Разработка DanNet базируется на толковом словаре современного датского языка DDO и семантическом лексиконе датского языка SIMPLE (Lenci и др., 2000, McShane и др., 2004). Разработчики датского ворднета особое внимание обращают на построение правильной структуры таксономии, поскольку, как мы уже упоминали в разделе 2.5.3.2, одной из проблем Принстонского WordNet'a является смешение нескольких разных отношений под одним и тем же названием гипоним-гипероним.
Для улучшения качества таксономии в DanNet создатели ресурса предполагают строже использовать диагностические высказывания для установления отношений гипоним-гипероним, а именно, устанавливать это отношение, если действительно можно сказать: «Х- это тип Y». Создатели проекта обращают внимание на то, что потенциальные гипонимы, для которых не выполняется высказывание «X - это тип Y» (например, плохо звучит, что roadside tree {дерево у обочины) является типом дерева), коррелируют с введенным в (Cruse, 2002) понятием номинального типа. Лексемы номинального типа (Cruse, 2002) в отличие от лексем естественного типа характеризуются тем, что это лексемы «одного свойства», то есть они характеризуются одним простым свойством, например, rattletrap - колымага {об автомобиле), getaway car {автомобиль, на котором преступник скрылся с места преступления), roadside tree {дерево у обочины), tanning agent {дубильное вещество). Поэтому, например, дерево у обочины не может рассматриваться как лексема естественного типа, несмотря на то, что относится к природным объектам. Среди гипонимов лексемы человек много единиц номинального типа, такие как пассажир, читатель, идиот и др. Создатели подчеркивают, что включение таких единиц в таксономию делают ее запутанной, поэтому все такие единицы в датском ворднете описываются как единицы, ортогональные таксономии. Считается, что «номинальные типы находятся на том же уровне иерархии, как и их гиперонимы, относительно таксонимов». Это позволяет отразить тот факт, что такие номинальные типы совместимы с таксонимами, например, самые разные типы автомобилей могут оказаться колымагами или использоваться для бегства с места преступления. Для отличения номинальных типов предлагается использовать различные лингвистические тесты. Один из тестов, отражающий способность номинального типа быть совместимым с разными таксонимами, звучит следующий образом: «X - это любой Y, который ...». Также предлагается использовать отрицательный тест «являться видом», так, например, странно звучит утверждение, что пассажир является видом человека. Помимо лексем естественного типа разработчики предполагают описывать таксономические отношения между лексемами функционального типа, включая, например, такие, как названия профессий {хирург - врач). Таким образом, в данном ресурсе сделаны серьезные усилия, чтобы выделить в группах гипонимов подгруппы несовместимых между собой таксонимов. Однако представляется, что к числу проблем данного подхода относятся: - существование достаточно большого числа промежуточных случаев (например, лесное дерево может рассматриваться как номинальный тип, но не любое дерево может расти в лесу); - сложность определения, что такое одно свойство; - наличием гипонимов и таксонимов у номинальных типов (например, пассажир имеет такие гипонимы, как транзитный пассажир, и таксонимы(?) авиапассажир, пассажир метро). Возникает вопрос, оправдаются ли усилия, вложенные в различение всех этих типов, лучшей эффективностью обработки текстов на основе созданного ресурса. Еще одной характеристикой таксономии в DanNet, на которую обращают внимание разработчики ресурса, является принадлежность синсетов и отношений между ними к общеупотребительной лексике. Разработчики DanNet поясняют свое решение на примере классификации домашней мебели: стул>мебель для сидения>мебель>объект. При этом в области страхования для обозначения предметов домашнего обихода имеется термин household effects (домашнее имущество), который потенциально мог бы быть вставлен в цепочку таксономических отношений. Однако создатели ресурса считают, что этого делать не нужно, поскольку в классификациях необходимо придерживаться «интуитивной позиции неспециального использования языка» (Asmussen и др., 2007). Для сравнения: в Принстонском WordNet для классификации, например, животных и растений, используется биологическая терминология из биологической систематики (Asmussen и др., 2007). Tags: Датский ворднет DanNet
|