| Алгоритм построения тематических узлов |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 06.01.2012 19:55 | |||
Алгоритм построения тематических узловДля построения тематических узлов мы сначала выделяем потенциальные центры тематических узлов. Мы предполагаем, что то понятие тезауруса, которое наиболее точно характеризует развиваемую в тексте тему и которое, соответственно, может стать тематическим центром одного из тематических узлов текста, обычно некоторым образом выделяется в пространстве всех тематически близких понятий, а именно: такое понятие может быть упомянуто в заголовке и/или в начале текста или имеет максимальную частотность среди других близких по смыслу понятий. Тематическим центром может стать любое понятие тезауруса, независимо от уровня его общности/специфичности. Единственное условие, которое может быть указано, это общая тематическая принадлежность концепта. При обработке современной прессы, актов законодательства на базе тезауруса РуТез обычно требуется принадлежность начального понятия тематического узла Общественно-политическому тезаурусу, т. е. фактически принадлежность понятия к одной из тематических областей общественной жизни. Таким образом, создание тематического узла начинается с выбора главного понятия тематического узла. Сначала тематические узлы собираются вокруг понятий заголовка и первого предложения текста. Затем тематические узлы собираются для остальных понятий, начиная с самых частотных. Те понятия, которые уже попали в тематический узел некоторого понятия, свой тематический узел не образуют. Центральное понятие тематического узла С0 присоединяет в создаваемый тематический узел понятия С, из своей тезаурусной окрестности при выполнении нескольких условий. При присоединении учитываются такие факторы, как: - количество текстовых связей между Q и С0 (т. е. совместной встречаемости С, и Со в одних и тех же предложениях) в целом документе - Rtext, - количество связей между Q и Со по предложениям, то есть сколько раз в документе Q и С() встречались в текущем предложении и в к (по умолчанию к=7) соседних предложениях, но вне пределов окна установления текстовых связей - Rsent. В новый тематический узел понятия С0 включаются понятия С, из дерева С0 при выполнении одного из следующих условий: - Rsent (Со, С,) > 0 и (Rtext (C0,Cj) < 2 или Rtext (С0,С{) < Rsent(C0,Ci)), то есть понятия С() и Q должны встречаться в тексте в соседних предложениях и при этом либо практически не встречаться рядом друг с другом в одних и тех же предложениях текста, либо частотность встречаемости понятия Со и Cj в одних и тех же предложениях текста должна быть меньше, чем частотность встречаемости в С0 и Cj в соседних предложениях, или - Rsent (Со,С,) = 0 и Rtext (C0,Cj) = 0 и Rsent (Ct,Q) > 0, где Ct - понятие, уже включенное в тематический узел С0,. т. е. понятие Cj, связанное по тезаурусу с понятием С0, включается в тематический узел, если оно на шлось относительно недалеко от понятия Q, уже включенного в тематический узел Q). После построения очередного тематического узла выбирается следующее по частотности (заголовку) понятие тезауруса, еще не включенное в тематические узлы, и образует следующий тематический узел. Приведем примеры тематических узлов, созданных в процессе обработки текста (**) (главное понятие тематического узла выделено сдвигом влево; указана также частота упоминания понятия в тексте):
1) НАРКОТИК 3 МОРФИН 2 МЕДИКАМЕНТ 1 2) БОЛЬНИЦА 4 ПРИЕМНОЕ ОТДЕЛЕНИЕ БОЛЬНИЦЫ 1 3) ПАЦИЕНТ 5 4) ВРАЧ 2 МЕДИЦИНСКИЙ РАБОТНИК 2 5) КАНАДА 2 АЛЬБЕРТА 1 6) УБИТЬ, ЛИШИТЬ ЖИЗНИ 1 СМЕРТЬ 2 УМЕРЕТЬ 1 7) ТРАВМА 1 НЕСЧАСТНЫЙ СЛУЧАЙ 1 8) МЕДСЕСТРА 2 В этом автоматически полученном наборе тематических узлов можно заметить следующие неточности отражения основного содержания текста. Во-первых, тематический узел «медицинские работники» разбился на два тематических узла 4) и 7). Возможно, правильнее иметь единый узел медицинских работников, поскольку текст делает акцент именно на вине медиков в целом: МЕДИЦИНСКИЙ РАБОТНИК 2 ВРАЧ 2 МЕДСЕСТРА 2 Кроме того, словосочетание несчастный случай в тексте явно относилось не к травме, а к смерти пациента, т. е. более правильным был бы такой узел: УБИТЬ, ЛИШИТЬ ЖИЗНИ 1 СМЕРТЬ 2 УМЕРЕТЬ 1 НЕСЧАСТНЫЙ СЛУЧАЙ 1 Но в целом, как мы видим, тематические узлы соответствуют элементам основной темы текста. При обработке текстов (***) и (****) из п. 19.2.2 изложенный алгоритм связывает между собой понятия РОССИЙСКАЯ ФЕДЕРАЦИЯ и ЧЕЧЕНСКАЯ РЕСПУБЛИКА по-разному. Для документа (***) строится тематический узел, объединяющий данные понятия в следующий тематический узел: РОССИЙСКАЯ ФЕДЕРАЦИЯ 2 ЧЕЧЕНСКАЯ РЕСПУБЛИКА 2 БЕСЛАН 1 Для документа (****) понятия РОССИЙСКАЯ ФЕДЕРАЦИЯ и ЧЕЧЕНСКАЯ РЕСПУБЛИКА образуют два тематических узла: РОССИЙСКАЯ ФЕДЕРАЦИЯ 4 ФЕДЕРА ТИВНОЕ ГОСУДАРСТВО 1 ЧЕЧЕНСКАЯ РЕСПУБЛИКА 3 Таким образом, изложенный алгоритм формирует тематические узлы так, чтобы каждый тематический узел соответствовал отдельному элементу основной темы документа. Tags: Алгоритм построения тематических узлов Тезаурус и построение тематического представления текста
|