| Лексические цепочки: использование частотных ассоциаций |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 06.11.2011 13:27 | |||
Лексические цепочки: использование частотных ассоциацийМногие исследователи лексической связности на базе WordNet отмечали, что серьезной проблемой является недостаточность лексических знаний, описанных в WordNet. В работах (Stokes и др., 2000; Stokes и др., 2004) сделаны усилия для того, чтобы преодолеть эту проблему. В данных работах предлагается дополнительно использовать следующую информацию: - статистические ассоциативные связи слов, - лексические цепочки для собственных имен.
Авторы подчеркивают, что одним из важных назначений учета статистических ассоциаций слов является преодоление уже упоминавшейся теннисной проблемы, т. е. проблемы того, что в WordNet слова, относящиеся к одной и той же тематической области, могут располагаться достаточно далеко по иерархии путей. Также авторы отмечают проблему нехватки такой информации, как некоторых значений, а также многословных сочетаний. Для построения ассоциаций слов авторы использовали текстовый корпус конференции TDT (http://projects.ldc.upenn.edu/TDT/), извлекли из него все существительные и словосочетания WordNet и собрали информацию о совместной встречаемости существительных в пределах текстового окна, состоящего из четырех существительных. Окно было также ограничено границами предложения и документа. Отфильтровав наименее частотные ассоциации, авторы оставили в работе 25032 пар, что соответствует 3566 существительным, имеющим в среднем 7 ассоциирующихся слов. Так, например, были получены следующие биграммы (в скобках приведены переводы слов): AIDS (СПИД): virus (вирус) 0.993, HIV (ВИЧ) 0.951, patient (пациент) 0.897, research (исследование) 0.806, disease (болезнь) 0, 801, infection (инфекция) 0.78 и т.д. Понятно, что существенной проблемой совмещения построения лексических цепочек на основе WordNet и статистических биграмм является то, что для биграмм неизвестны точные значения слов, для которых существуют такие ассоциации, и, следовательно, статистическая связь может быть применена не к тому значению в тексте, что приведет к неправильному включению элементов в цепочку.
Авторы упомянутой работы применяют систему связей в лексической цепочке, предложенных в работе (Hirst, St-Onge, 1998): сверхсильные связи, сильные связи, связи средней силы. Ассоциативные связи между словами, полученные на основе статистических критериев, считаются самым слабым видом отношений между словами и применяются, если более сильных связей не найдено. Например, для текста, посвященного премьере фильма об убийстве журналистки, получилась лексическая цепочка, представленная в табл. 14.1. Для именованных объектов, не входящих в состав WordNet, также предложена система отношений разной силы: отношение полного совпадения; частичное пословное совпадение; частичное совпадение по фрагменту слова.
|
