| Определение статуса тематического узла |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 17.01.2012 19:41 | |||
|
Теперь лечение наркомании в Москве стало намного проще. Перейдите на сайт реабилитационного центра "Слободка", чтобы узнать подробнее. Определение статуса тематического узлаНа предшествующем этапе были собраны тематические узлы, каждый из которых включает понятия текста, связанные по тезаурусу с главным понятием тематического узла. С помощью тематического узла выделяются элементы основных тем и подтем текста, обсуждавшиеся в тексте. В нашей модели предполагается, что понятия основных тематических узлов постоянно встречаются рядом (связаны по тексту) в одних и тех же предложениях текста. Понятно, что реализация проверки такого условия осложняется проблемами правильного выделения простых предложений внутри сложных предложений, построением правильной синтаксической структуры, вхождениями местоимений и использованием эллипсиса (т. е. пропусков) в тексте. Поэтому для оценки совместной встречаемости тематических узлов мы используем опять же линейный контекст понятий, называемый нами «текстовые связи». В результате для каждого понятия, упомянутого в тексте, получается совокупность текстовых связей, как, например, для понятия ПАЦИЕНТ из текста (**) (справа указана частота текстовых связей понятия ПАЦИЕНТ с другими понятиями текста): ПАЦИЕНТ
НАРКОТИК - 4 ВРАЧ - 1 УБИТЬ, ЛИШИТЬ ЖИЗНИ - 1 НАРКОТИК - 2 НЕСЧАСТНЫЙ СЛУЧАЙ - 1 БОЛЬНИЦА - 1 МЕДИЦИНСКИЙ РАБОТНИК - 1 После того, как созданы тематические узлы, текстовые связи понятий каждого тематического узла суммируются и определяются текстовые связи между тематическими узлами. Приведем примеры текстовых связей между тематическими узлами, выделенными в тематическом представлении текста (**). Тематические узлы представлены своими главными понятиями, число справа - суммарная величина текстовых связей между понятиями тематических узлов, текстовые связи даны для тематического узла, главное понятие которого смещено в примере влево: ПАЦИЕНТ НАРКОТИК - 4 БОЛЬНИЦА - 3 ВРАЧ - 3 УБИТЬ, ЛИШИТЬ ЖИЗНИ - 3 В соответствии с моделью предполагается, что основными тематическими узлами в первую очередь являются такие тематические узлы, которые: - все связаны между собой текстовыми связями; - сумма частот текстовых связей между ними максимальна для анализируемого текста (рис. 19.3). В рассматриваемом примере тематического представления текста (**) основными тематическими узлами стали узлы с главными понятиями ПАЦИЕНТ, НАРКОТИК ВРАЧ, БОЛЬНИЦА, МЕДСЕСТРА, УБИТЬ, ЛИШИТЬ ЖИЗНИ, КАНАДА. Упомянутый ранее тематический узел ТРАВМА (несчастный случай) не прошел в список основных тематических узлов, поскольку не был связан по тексту с тематическим узлом МЕДСЕСТРА.
Построенные таким образом основные тематические узлы автоматически задают порог, выделяющий среди всех тем, обсуждавшихся в тексте, его основные темы. Таким порогом считается средняя суммарная частотность основных тематических узлов. Исходная совокупность основных тематических узлов дополняется теми тематическими узлами, частотность которых превышает вычисленный порог. Это дополнение отражает такую структуру текста, когда некоторая важная тема обсуждается в тексте локализованно, не по всему тексту, но достаточно подробно. Локальные тематические узлы представляют собой некоторые важные характеристики основных тематических узлов. Тематический узел считается локальным, если этот узел имеет текстовую связь с частотностью большей единицы с одним из основных тематических узлов. Понятия, не вошедшие в состав основных и локальных тематических узлов, объявляются «упоминавшимися» в тексте. Таким разбиением тематических узлов на основные и локальные задается разбиение понятий, упомянутых в тексте, на следующие пять классов по их важности для анализируемого текста: - главные понятия основных тематических узлов (основные темы); - другие понятия основных тематических узлов; - главные понятия локальных тематических узлов (локальные темы); - другие понятия локальных тематических узлов; - упоминавшиеся понятия. Таким образом, построено тематическое представление текста, в котором понятия тезауруса, упоминавшиеся в тексте, разбиты на тематические узлы. Тематические узлы подразделяются на основные, локальные и упоминавшиеся узлы. Между тематическими узлами фиксируются текстовые связи (Лукашевич, Добров, 1996; Лукашевич, Добров, 2000). Tags: Определение статуса тематического узла Тезаурус и построение тематического представления текста
|
