| «Теннисная проблема» в WordNet |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 04.10.2011 08:43 | |||
Проблемы представления лексической информации в WordNet:«Теннисная проблема»Многие исследователи для своих экспериментов использовали, прежде всего, синсеты существительных из WordNet. Поэтому особое внимание и обсуждение исследователей было посвящено системе отношений между этими синсетами. Во-первых, это так называемая «теннисная» проблема - проблема нехватки отношений между синсетами, относящимися к одной и той же тематической области (Miller, 1998). Во-вторых, далее мы рассмотрим дискуссию по поводу принципов установления отношений гипонимии/гиперонимии.
Одной из серьезных проблем WordNet, препятствующей его использованию в приложениях, является так называемая «теннисная проблема»: принадлежащие одной предметной области, сфере деятельности, ситуации синсеты оказываются очень далеко друг от друга в структуре WordNet. Дж. Миллер (Miller, 1998) пишет, что если кто-либо захочет обратиться к WordNet, чтобы узнать о специализированном словаре теннисной области, то выяснится, что в WordNet очень много слов из этой сферы, но они совершенно разделены, будучи включенными каждый в свою классификацию: синеет «теннисный инвентарь» включен в иерархию артефактов, синеет «теннисный корт» включен в иерархию местоположений, различные синсеты теннисных ударов в иерархию действий. Получается, что существительные, которые часто употребляются в одних и тех же текстах, в WordNet не имеют между собой никаких общих отношений. Такая же проблема возникает, естественно, с тематической лексикой из других областей деятельности. Отсутствие такого рода отношений оказывает серьезное негативное воздействие на использование WordNet в автоматических процедурах разрешения лексической многозначности, вызывает проблемы в информационном поиске. В ряде исследований было предложено решать данную проблему введением в WordNet информации о принадлежности синсетов определенным тематическим доменам. Домены, такие как «теннис», «политика» или «образование», группируют синсеты в сценарии или схемы. Так, домен «теннис» включает такие синсеты, как «гейм», «теннисный мяч», «теннисная ракетка», «тайм-брейк» и т. д. Работа (Magnini, 2000) описывает процесс создания иерархической системы таких доменов и процедуру автоматизированной приписки доменов синсетам WordNet. Разработка иерархической системы доменов началась с 250 рубрик, собранных по различным словарям, и затем была дополнена и уточнена на базе Десятичной классификации Дьюи. Была получена иерархия из 115 доменов, организованных по 4 уровням иерархии, включающая, например, такие домены, как «сельское хозяйство», «археология», «астрология», «биология», «ветеринария» и др. Кроме того, была выделена специальная область, в которую входят синсеты WordNet, не принадлежащие никаким тематическим доменам, поскольку они могут употребляться в текстах многих предметных областей. Такая специальная предметная область получила название Factotum. Область Factotum включает два типа синсетов: - «общие» синсеты, которые трудно отнести к какой-либо предметной области, например, человек, мужчина, день. Эти синсеты располагаются обычно высоко в иерархии WordNet и содержат очень многозначные слова: Man 1 -an adult male person (мужчина) Man 3 - the generic use of the word to refer to any human being (человек) Date 1 - day of the month (день месяца) Date3 - appointment, engagement (назначение); -синсеты, которые можно рассматривать как стоп-синсеты: числа, дни недели, цвета. Такие синсеты могут встретиться в самых разнообразных контекстах, но обычно их вклад в содержание текста невелик. Всего область Factotum включает 6450 синсетов, включая 2780 стоп-синсетов и 3670 «общих» синсетов. Чтобы разметить все множество синсетов WordNet, была реализована автоматизированная процедура, состоящая из следующих шагов: 1) Вручную размечается относительно небольшое количество синсетов верхнего уровня. 2) Автоматически по связям (гипонимия, тропонимия, меронимия, антонимия) пометки распространяются на другие синсеты. 3) Можно задать исключения, например, для синсета кресло парикмахера (barber chair), которое является частью парикмахерской (barbershop) и поэтому получает домен КОММЕРЦИЯ (COMMERCE). Процедура была выполнена только для существительных.В работе приводятся данные о количестве приписанных в результате автоматизированной приписки синсетов для некоторых доменов: Сельское хозяйство 248 Археология 47 Питание 2563 Астрология 16 Биология 20266 Медицина 2660 Ветеринария 36 и др. В настоящее время разметку последних версий WordNet по тематическим областям можно получить с сайта http://wndomains.itc.it/wordnetdomains.html . Вместе с тем остаются вопросы по отношению к введению в систему, построенную на основе одних единиц, набора других единиц с неопределенным относительно исходных единиц статусом, среди которых: - вариативность возможного набора доменов; - небольшая наполненность некоторых доменов и большое количество синсетов в других доменах; - необходимость разных систем доменов для разных задач; - отсутствие полностью выверенной разметки синсетов набором доменов (выверить вручную очень трудоемко, если выверять в процессе решения различных задач, то далеко не все проблемы (неточности, ошибки) приписки удастся быстро обнаружить.
|