| Подход Hirst and St-Onge |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 03.11.2011 16:27 | |||
Подход Hirst and St-OngeПервой опубликованной работой, которая использовала WordNet как ресурс для построения лексических цепочек, была работа (Hirst, St-Onge, 1998). Авторы предполагали использовать лексические цепочки для обнаружения малапропизмов, то есть ошибок текста, при которых ошибочно написанное слово оказывается реально существующим словом языка, что и затрудняет обнаружение ошибки (Большакова и др., 2006). Рассмотрим, как предлагается выявлять лексическую связность текста в этой работе. Вес отношения между словами, которые могут быть индикаторами лексической связности, делятся на три группы: экстра-сильные, сильные и средней силы. Экстра-сильные отношения устанавливаются только между буквальными повторами слов. Сильные отношения устанавливаются в трех случаях: - когда два слова описаны как синонимы {human и person)', - когда два слова связаны горизонтальным отношением (антонимия, подобие); - если многословное выражение - единица WordNet - включает в себя однословное {school - private school). Сильное отношение имеет меньший вес, чем экстрасильное, и больший вес, чем отношение средней силы. Отношения средней силы возникают, когда имеется путь заданной формы между понятиями, к которым относятся два слова. Максимальная длина пути - пять отношений. Не позволяется поворот пути «вниз-вверх». Разрешен только один поворот «вверх-вниз» и два поворота пути следующего вида: «вверх-горизонтально вниз». Таким образом, помимо повторов и синонимов рассматриваются как способные участвовать в образовании лексической связности текста: слова, являющиеся нижестоящими или частями одного и того же понятия от 1 до 4 уровней;
Рис. 14.2. (Hirst, St-Onge, 1998): а) запрещенные пути при построении отношений средней силы, б) разрешенные пути отношений средней силы Предполагается, что лексическая связность текста моделируется совокупностью лексических цепочек слов, чьи значения близки по смыслу. Для выявления этих цепочек предлагается следующий алгоритм: 1) Текст просматривается пословно с начала до конца. Просматриваются только существительные. 2) Первое слово создает первую лексическую цепочку. 3) Для каждого следующего слова проверяется, связано ли оно какими-либо лексически-существенными связями с предшествующими словами (и, соответственно, лексическими цепочками):
- если нет, то слово образует новую цепочку; - если очередное слово связано только с одной лексической цепочкой, то туда оно и присоединяется; - если очередное слово связано с несколькими лексическими цепочками, то выбирается наиболее сильная связь. Выбирается всегда одна лексическая цепочка. Имеются ограничения просмотра - 7 предложений для сильных связей и 3 предложения для связей средней силы 4) В процессе такого построения цепочек происходит разрешение многозначности слов, поскольку значения, по которым не было подсоединения к существующей цепочке, удаляются. Авторы указанной работы предполагали построить детектор малапропизмов, используя следующую гипотезу: слова, которые не формируют лексические цепочки с другими словами текста, являются потенциальными малапропизмами, поскольку они как бы не соответствуют содержанию текста. Если такое слово обнаруживается, алгоритм подыскивает слова, которые близки по написанию к данному слову и которые удается присоединить к одной из существующих лексических цепочек. Тот вариант, который сильнее всего оказался связанным с существующей лексической цепочкой, считается правильным, т. е. именно тем исходным словом, в котором произошла ошибка. Авторы протестировали свой подход на материале 500 статей Wall Street Journal, в которые были специально внесены малапропизмы, в среднем один малапропизм на 200 слов - всего 1409. Эксперименты показали точность выявления малапропизмов 12.5% и полноту 28.7%. В дальнейшем Буданицким (Budanitsky, 1999) было показано, что обнаружение малапропизмов может быть улучшено на основе более простого алгоритма, который анализирует семантическое расстояние между всеми терминами текста, а не на основании отношения с одной лексической цепочкой. Тем не менее, работа (Hirst, St-Onge, 1997) оказала сильное влияние на попытки моделирования построения лексических цепочек и применения их в разных компьютерных приложениях при автоматической обработке связного текста. Оценивая построенные лексические цепочки и анализируя выявленные ошибки, авторы работы отмечали, что значительная часть ошибок в установлении лексических цепочек связана со структурой описаний лексических единиц в WordNet. В частности, отмечены следующие проблемы: 1) отсутствие описаний ситуационных отношений, например связей вида Nasdaq-акция, больница-пациент; 2) недостаточное количество связей между различными частями речи; 3) непоследовательность в мере семантической близости отношений WordNet. Иногда явно лексически связанные в тексте слова соединены слишком длинными путями в WordNet, как, например, steak и stew, и наоборот, то, что кажется несвязанным в тексте, имеет короткие пути связи в WordNet {publie-professionaI); 4) кроме того, часть проблем связана с неправильным разрешением многозначности слов. Описанный в этой статье алгоритм является так называемым «жадным» (greedy) алгоритмом построения лексических цепочек, поскольку построение цепочек базируется только на словах, которые встречались ранее текущего кандидата. Такой алгоритм может образовать ложные цепочки из-за многозначности слов. Поэтому предложены также и нежадные алгоритмы построения лексических цепочек, которые предполагают построение полной картины возможных лексических отношений между кандидатами, предварительное разрешение лексической многозначности и только после пою построение лексических цепочек.
|
