Войти



Последние материалы

Золотые партнеры:

Серебряные партнеры:

Бронзовые партнеры:

Алгоритм построения тематических узлов
Статьи
Автор: Лукашевич Н.В.   
06.01.2012 19:55

Алгоритм построения тематических узлов

Для построения тематических узлов мы сначала выделяем потенциальные центры тематических узлов. Мы предполагаем, что то понятие тезауруса, которое наиболее точно характеризует развиваемую в тексте тему и которое, соответственно, может стать тематическим центром одного из тематических узлов текста, обычно некоторым образом выделяется в пространстве всех тематически близких понятий, а именно: такое понятие может быть упомянуто в заголовке и/или в начале текста или имеет максимальную частотность среди других близких по смыслу понятий.

Тематическим центром может стать любое понятие тезауруса, независимо от уровня его общности/специфичности. Единственное условие, которое может быть указано, это общая тематическая принадлежность концепта. При обработке современной прессы, актов законодательства на базе тезауруса РуТез обычно требуется принадлежность начального понятия тематического узла Общественно-политическому тезаурусу, т. е. фактически принадлежность понятия к одной из тематических областей общественной жизни.

Таким образом, создание тематического узла начинается с выбора главного понятия тематического узла. Сначала тематические узлы собираются вокруг понятий заголовка и первого предложения текста. Затем тематические узлы собираются для остальных понятий, начиная с самых частотных. Те понятия, которые уже попали в тематический узел некоторого понятия, свой тематический узел не образуют.

Центральное понятие тематического узла С0 присоединяет в создаваемый тематический узел понятия С, из своей тезаурусной окрестности при выполнении нескольких условий. При присоединении учитываются такие факторы, как:

- количество текстовых связей между Q и С0 (т. е. совместной встречаемости С, и Со в одних и тех же предложениях) в целом документе - Rtext,

-        количество связей между Q и Со по предложениям, то есть сколько раз в

документе Q и С() встречались в текущем предложении и в к (по умолчанию к=7) соседних предложениях, но вне пределов окна установления

текстовых связей - Rsent.

В новый тематический узел понятия С0 включаются понятия С, из дерева С0 при выполнении одного из следующих условий:

-        Rsent (Со, С,) > 0 и (Rtext (C0,Cj) < 2 или Rtext (С0,С{) < Rsent(C0,Ci)), то есть понятия С() и Q должны встречаться в тексте в соседних предложениях и при этом либо практически не встречаться рядом друг с другом в

одних и тех же предложениях текста, либо частотность встречаемости понятия Со и Cj в одних и тех же предложениях текста должна быть меньше, чем частотность встречаемости в С0 и Cj в соседних предложениях,

или

-        Rsent (Со,С,) = 0 и Rtext (C0,Cj) = 0 и Rsent (Ct,Q) > 0, где Ct - понятие, уже включенное в тематический узел С0,. т. е. понятие Cj, связанное по тезаурусу с понятием С0, включается в тематический узел, если оно на

шлось относительно недалеко от понятия Q, уже включенного в тематический узел Q).

После построения очередного тематического узла выбирается следующее по частотности (заголовку) понятие тезауруса, еще не включенное в тематические узлы, и образует следующий тематический узел.

Приведем примеры тематических узлов, созданных в процессе обработки текста (**) (главное понятие тематического узла выделено сдвигом влево; указана также частота упоминания понятия в тексте):

 

1) НАРКОТИК   3

МОРФИН  2

МЕДИКАМЕНТ 1

2) БОЛЬНИЦА   4

ПРИЕМНОЕ ОТДЕЛЕНИЕ БОЛЬНИЦЫ       1

3) ПАЦИЕНТ     5

4) ВРАЧ     2

МЕДИЦИНСКИЙ РАБОТНИК    2

5) КАНАДА        2

АЛЬБЕРТА         1

6)  УБИТЬ, ЛИШИТЬ ЖИЗНИ      1

СМЕРТЬ    2

УМЕРЕТЬ 1

7)  ТРАВМА       1

НЕСЧАСТНЫЙ СЛУЧАЙ   1

8)  МЕДСЕСТРА         2

В этом автоматически полученном наборе тематических узлов можно заметить следующие неточности отражения основного содержания текста.

Во-первых, тематический узел «медицинские работники» разбился на два тематических узла 4) и 7). Возможно, правильнее иметь единый узел медицинских работников, поскольку текст делает акцент именно на вине медиков в целом:

МЕДИЦИНСКИЙ РАБОТНИК    2

ВРАЧ         2

МЕДСЕСТРА     2

Кроме того, словосочетание несчастный случай в тексте явно относилось не к травме, а к смерти пациента, т. е. более правильным был бы такой узел:

УБИТЬ, ЛИШИТЬ ЖИЗНИ 1

СМЕРТЬ    2

УМЕРЕТЬ 1

НЕСЧАСТНЫЙ СЛУЧАЙ   1

Но в целом, как мы видим, тематические узлы соответствуют элементам основной темы текста.

При обработке текстов (***) и (****) из п. 19.2.2 изложенный алгоритм связывает между собой понятия РОССИЙСКАЯ ФЕДЕРАЦИЯ и ЧЕЧЕНСКАЯ РЕСПУБЛИКА по-разному.

Для документа (***) строится тематический узел, объединяющий данные понятия в следующий тематический узел:

РОССИЙСКАЯ ФЕДЕРАЦИЯ     2

ЧЕЧЕНСКАЯ РЕСПУБЛИКА       2

БЕСЛАН   1

Для документа (****) понятия РОССИЙСКАЯ ФЕДЕРАЦИЯ и ЧЕЧЕНСКАЯ РЕСПУБЛИКА образуют два тематических узла:

РОССИЙСКАЯ ФЕДЕРАЦИЯ     4

ФЕДЕРА ТИВНОЕ ГОСУДАРСТВО       1

ЧЕЧЕНСКАЯ РЕСПУБЛИКА       3

Таким образом, изложенный алгоритм формирует тематические узлы так, чтобы каждый тематический узел соответствовал отдельному элементу основной темы документа.