Войти



Последние материалы

Золотые партнеры:

Серебряные партнеры:

Бронзовые партнеры:

Этапы работы алгоритма
Статьи
Автор: Лукашевич Н.В.   
20.12.2011 18:14

Не доверяете своему оптимизатору? Закажите аудит продвижения сайта!


Этапы работы алгоритма

Поступающий текст проходит через процедуру графематического и морфологического анализа. Далее на основе цепочек лемм, полученных в результате морфологического анализа, происходит сопоставление с тезаурусом. Для каждой сопоставившейся тезаурусной единицы отмечается ее статус: однозначное сопоставление, сопоставление с пометкой многозначности (А-многозначность), сопоставилось несколько единиц тезауруса (М-многозначность). Отметим, что если одна из сопоставленных тезаурусных единиц полностью включается в другую тезаурусную единицу, то эта ситуация многозначной не считается, сопоставленной считается более длинная тезаурусная единица.

Процедура разрешения многозначности начинается с анализа глобального контекста. Для каждого значения неоднозначных единиц текста анализируется, упоминались ли в тексте понятия, семантическая близость которых к текущему понятию составляет ненулевое число баллов, вычисленных по формуле (18.1). Все набранные баллы понятий-значений многозначных единиц суммируются и запоминаются.

Далее происходит анализ локального контекста. Для каждого вхождения многозначной тезаурусной единицы просматривается заданная текстовая окрестность, выбираются упоминаемые понятия, связанные с понятиями данной многозначной единицы тезаурусными путями разрешенной конфигурации, и подсчитываются баллы по формуле (18.1). Баллы, полученные при глобальном и локальном анализе, суммируются. Для каждого вида многозначности задается свой порог. Если понятия-значения получили баллы меньшие, чем заданный порог, то считается, что ни одно значение не подтвердилось - возможно, в тексте использовано какое-то другой значение. Если понятие единицы с А-многозначностью получает количество баллов большее, чем установленная пороговая величина, то это значение подтверждается и, соответственно, выбирается.

Среди понятий для текстовой единицы с М-многозначностью выбирается значение, получившее максимальное количество баллов. Если понятия единицы с М-многозначностью получили одинаковое количество баллов, превышающее пороговое, то выбирается вышестоящее по иерархии понятие. Например, для значений слова балет таким понятием является понятие БАЛЕТНОЕ ИСКУССТВО (см. рис. 18.2) Если такой иерархической связи не имеется, то в настоящее время не выбирается ни одно из понятий - многозначность остается неразрешенной. Если бы на основе разметки корпуса было известно наиболее частотное значение, то можно было бы в таких случаях выбирать именно это частотное значение.

Далее на этот алгоритм разрешения многозначности мы будем ссылаться как на LocGlob.