| Моделирование связности текста |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 03.11.2011 05:01 | |||
Моделирование связности текстаМногие модели обработки текстов в сфере информационного поиска базируются на предположении о независимом употреблении слов (bag of words models) в связном тексте. Между тем известно, что текст содержит множество связанных по смыслу слов, а также имеет внутреннюю иерархическую структуру. Существует достаточно много разных приложений автоматической обработки текстов, которые могли бы выдавать более качественные результаты, если бы можно было автоматически выявлять содержательную структуру связного текста. Среди них такие приложения, как автоматическое сегментирование текстов, разрешение многозначности, собственно информационный поиск, более качественное определение весов термов в документе, рубрикация текстов, автоматическое аннотирование текстов и др. Понятие связности текста можно рассмотреть в нескольких аспектах. Выделяют когезию (структурную связность) и когерентность текста1. Фактически речь идет о внутренней (структурной) и внешней (прагматической) связности. Когезией называется связь элементов текста, при которой интерпретация одних элементов текста зависит от других (Кронгауз, 2001). Когерентностью называется связность, привносимая чем-то внешним по отношению к тексту, прежде всего знаниями его адресата. На основании этих знаний адресат может конструировать определенные ожидания и достраивать связи, отсутствующие в тексте в явном виде (Гальперин, 1981; Morris, Hirst, 1991; Кронгауз, 2001; Шевченко, 2003). С другой точки зрения выделяют глобальную и локальную связность текста. Глобальная связность текста обеспечивается тем, что у текста имеется единая тема. Локальная связность проявляется во взаимосвязи между соседними мини¬мальными единицами текста (Ван Дейк, Кинч, 1988; Van Dijk, 1985). В следующем разделе мы рассмотрим некоторые положения теории связного текста. Не претендуя на исчерпывающий обзор подходов и моделей к анализу связного текста, мы, прежде всего, будем обращать внимание на те свойства связного текста, которые поддаются компьютерному моделированию в настоящее время. В лингвистической литературе при обсуждении проблемы связности, структуры текста употребляют термин «дискурс».
|