Войти



Последние материалы

Серебряные партнеры:

Бронзовые партнеры:

Алгоритм Stairmand
Статьи
Автор: Лукашевич Н.В.   
04.11.2011 07:22

Алгоритм Stairmand

Подход к построению лексических цепочек, описанный в работе (Stairmand, 1996), является примером нежадного алгоритма.

Алгоритм сначала выбирает существительные-кандидаты для построения лексических цепочек. На втором этапе устанавливаются все возможные отношения между всеми значениями кандидатов. В данном алгоритме рассматриваются такие отношения, как повторы, синонимы, гипонимы, гиперонимы, меронимы, холонимы и антонимы, также используются пути гиперонимических отношений, для которых длина пути не ограничивается. После установления всех возможных связей между словами порождаются лексические кластеры. Лексические кластеры в данном алгоритме не являются взаимно исключающими, т. е. одно и то же слово может относиться к разным лексическим кластерам.

На следующем шаге объединяются все лексические кластеры, относящиеся к одним и тем же значениям слов. Это дает возможность установления транзитивных отношений между словами, которые явным образом не указаны в WordNet.

Полученные лексические кластеры разбиваются на лексические цепочки так, чтобы между соседними элементами цепочки было не более 80 слов и каждая цепочка состояла не менее чем из 3 слов. Этим цепочкам затем присваиваются веса в зависимости от доли текста, которую занимает цепочка (фрагмент цепочки), и плотности цепочки (количество элементов цепочки по отношению к длине фрагмента цепочки).

Stairmand применял свой подход к экспериментам но поиску документов по запросам конференции TREC и сравнивал свой подход с результатами работы известной информационно-поисковой системы, построенной на векторной модели SMART (Salton, 1989). Эксперименты показали, чю система Stairmand находит релевантные документы лучше, если слова запроса относятся к основной теме или важной подтеме документа. Однако система SMART лучше различает документы, которые частично относятся к теме запроса, и нерелевантные документы. Кроме того, полнота поиска информации на основе предложенной модели была очень низкой. Авюр объясняет данную проблему недостаточным покрытием WordNet реальных текстов, и особенно недостаточным описанием собственных имен в WordNet.