| Когезия как структурная связность текста |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 03.11.2011 16:16 | |||
Когезия как структурная связность текстаЕще одним видом связности в тексте является когезия, представляющая собой совокупность лексических и грамматических средств для выражения связей между единицами текста. Когезия может выражаться в тексте несколькими разными способами (Halliday, Hasan, 1976; Кронгауз, 2001; Гальперин, 1984; Селезнев, 1987). 1) Когезия в тексте может осуществляться с помощью специально предназначенных для этого слов, называемых дискурсивными, которые включают чаще всего союзы и частицы, например, Шел дождь, поэтому на улице никого не было. 2) Часто встречающимся видом когезии является лексический повтор или лексическая связность. Авторы известной работы (Halliday, Hasan, 1976) разделяют лексическую связность на пять категорий: - повторение - употребляется одно и то же слово; - синонимическое повторение; - связность через обобщение или специализацию (родовидовые отношения); - связность через отношения часть-целое, например, Детский сад откроют не раньше понедельника. Еще предстоит просушить все комнаты (комнаты как часть детского сада); - связность через коллокацию, сюда же относится антонимия. Такие отношения могут быть выявлены путем статистики частого совместного упоминания слов.
Последние четыре вида лексической связности могут быть названы семантическим повтором. 3) Также распространенным видом когезии является использование анафорических отсылок, например, с помощью местоимений: Иван поехал на работу. Он сел в трамвай. 4) Еще одним поверхностным способом выражения когезии следует считать эллипсис. Эллипсисом называется пропуск в тексте подразумеваемой языковой единицы, например, Врач прописал ему лекарство и отпустил (...) домой. Компьютерное моделирование всех этих явлений достаточно сложно. Наиболее сложно автоматическое восстановление пропуска в виде эллипсиса, и нам неизвестны компьютерные приложения, которые бы в значительной мере учитывали этот вид связности. Имеется множество работ, посвященных установлению референтов местоимений (Mitkov, 2002; Ермаков, 2007; Толпегин, 2008; Кобзарева, 2003), однако явления анафоры и кореферентности значительно более разнообразны, чем данная проблема. Многие существительные и именные группы, формально сильно отличающиеся по смыслу, могут иметь одного и того же референта, например: По ошибке медсестры пациенту был сделан укол гидроморфона -похожего на морфин по названию и действию... Свою ошибку медики осознали после пересчета наркотических средств и сразу позвонили родственникам мужчины. Дискурсивные элементы традиционно используются при автоматическом построении аннотаций, особенно аннотаций научных статей (см., например: Саломатина, Гусев, 2006; Toefel, Moens, 2002; Advances in Automatic text summarization, 1999; Блюменау и др., 2002) В настоящее время дискурсивные слова являются одним из наиболее существенных факторов при построении риторической структуры текста (см. Риторическая структура и риторическая связность текста). Однако проблемами использования дискурсивных единиц при построении иерархической структуры текста являются: - их неоднозначность, - их отсутствие во многих предложениях для некоторых типах текстов, - сложность автоматического установления отношения к предшествующему фрагменту текста. Из всех этих отношений лексическая связность является наименее имплицитной и может быть выявлена с помощью имеющихся лингвистических ресурсов, таких как тезаурусы.
Многие авторы указывают, что лексическая связность - это не просто связи между парами слов текста, а достаточно длинные цепочки слов, близких по смыслу. Так, Кронгауз (Кронгауз, 2001) пишет, что средством когезии является вообще подбор тематической лексики, то есть лексики, относящейся к одному семантическому полю, и соответственно повтор в тексте интегральных признаков этого поля. В работе (Morris, Hirst, 1991) указывается, что лексическая связность возникает не только между парами слов, но связывает между собой группы слов текстового фрагмента, посвященного одной и той же теме. Т.В. Матвеева (Матвеева, 1990) пишет, что тему текста представляют: первичная тематическая цепочка (прямое название предмета речи, которое обозначается чаще всего нейтральным, общеупотребительным словом) и вторичные (дополнительные) цепочки, к которым относятся субституты, трансформы, синонимы, местоимения, родовые обозначения вместо видовых и т. д. В работе (Зубов, Зубова, 2006) рассматриваются цепочки семантически связанных слов в стихотворных текстах, такие как «вечер», «утро», «час», «секунда» (имеют семантический признак «время»); «мир», «даль», «расстояние»; «поезд», «путь», «движение»; «тело», «рука», «глаза»; «открытка», «поздравление», «привет» (семантический признак «расстояние»). В работе (Hasan, 1984) рассматривается понятие «гармонии связности», посредством которого делается попытка формализовать отношения внутри предложения и между предложениями. Гармония связности базируется на цепочках когезии, в том числе лексических цепочках, и семантических отношениях, таких как агент, объект, инструмент, между элементами разных цепочек, устанавливаемыми внутри предложений. Р. Хазан указывает, что два языковых выражения должны рассматриваться как единицы одной цепочки, если они более чем один раз выступали в одном и том же отношении в рамках какой-либо ситуации или по отношению к какой-либо третьей сущности. Подчеркивается, что единство текста основывается на том, что «похожие вещи говорятся о похожих или тех же самых сущностях или событиях. Тексты, в которых больше сущностей участвуют в гармонии связности, рассматриваются людьми как более связные. Алгоритмы автоматического выделения лексических цепочек будут рассмотрены в следующем разделе.
|