| Концептуальный индекс, веса понятий и отношений |
| Статьи |
| Автор: Лукашевич Н.В. |
| 17.01.2012 20:06 |
|
Теперь для людей в Москве, в чьей семье случилось страшное, открылся центр реабилитации наркоманов "Слободка". Концептуальный индекс, веса понятий и отношенийТематическое представление текста дает возможность построить концептуальный индекс документа, в котором учитывается не только частотность отдельного понятия в документе, но и статус понятия в тематической структуре документа (Добров, Лукашевич, 2001; Лукашевич, Добров, 2001). Как указывалось в предыдущей главе, в результате построения тематического представления текста все понятия тезауруса, упомянутые в тексте, разделяются на пять базовых классов значимости для текста, каждый из которых имеет свой вес. Задание весов этих классов может осуществляться параметрически. В большинстве случаев веса классов значимости понятий задаются следующим образом: - центры основных тематических узлов - 0.95, - другие понятия основных тематических узлов - 0.85, - центры локальных тематических узлов - 0.70, - другие понятия локальных тематических узлов - 0.65, - упоминавшиеся понятия, не вошедшие в предыдущие классы - 0.20. Базовый вес понятия получен в качестве интегрального анализа распределения в тексте совокупностей близких по смыслу терминов. Чтобы снизить фактор ошибки вычисления базовых весов, а также сделать веса понятий более дробными, для формирования окончательного веса понятий учитывается также относительная частотность понятий в тексте. Окончательный вес понятия в тексте JI(C, D) рассчитывается по следующей формуле:
Таким образом, при загрузке текстов в поисковую систему создается концептуальный индекс текста по тезаурусу, строится тематическое представление текста, каждому понятию присваивается вес по формуле (20.1).
При расширении запроса по тезаурусу необходимо организовать выдачу и таких текстов, в которых нет исходных понятий запроса, но имеются нижестоящие по иерархии отношений понятий - так называемое дерево-вниз (Добров, Лукашевич, 2001). Каждое понятие в дереве-вниз имеет свой вес, который зависит от суммарного отношения данного понятия к исходному понятию и не зависит от длины пути до понятия - вершины дерева. В настоящее время используются следующие величины весов Q (t,c), где t - исходное понятие, с - понятие в его дереве расширения (20.2). Эти величины используются как коэффициенты, на которые домножается вес, присвоенный данному понятию при анализе конкретного документа. Документ может содержать несколько различных понятий из дерева расширения. Для вычисления веса такого документа веса всех понятий из дерева расширения суммируются так, чтобы придать больший вес документам, которые содержат несколько понятий из дерева расширения (20.3). Если документ содержит понятие, которое связано с исходным понятием запроса посредством отношения с модификатором, то используются дополнительные, понижающие вес коэффициенты. Это связано с тем, что модификатор сообщает информацию о том, что это отношение недостаточно стабильно и может быть в некоторых контекстах нерелевантно. Мы считаем, что такое отношение подтверждается, если в документе есть другое понятие из того же дерева расширения, которое связано с понятием-вершиной без дополнительных модификаторов. В этом случае коэффициент отношения с модификатором совпадает с коэффициентом расширения без модификаторов. Если такое отношение не подтверждается, то используется дополнительное снижение веса отношения в 2 раза (20.4). Tags: Концептуальный индекс веса понятий и отношений Информационный поиск с учетом тезаурусных знаний
|
