| Алгоритм Barzilay and Elhadad |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 06.11.2011 13:19 | |||
Алгоритм Barzilay and ElhadadРассматривая методы построения лексических цепочек с использованием лексических отношений, описанных в WordNet, авторы работы (Barzilay, Elhadad, 1999) указывают на проблему неправильного построения лексических цепочек за счет того, что выбор значений многозначных слов только на основе информации о предшествующих лексических цепочках не является достаточно качественным. Поэтому в данной работе предлагается выделять все значения слов текста и встраивать их в начатые лексические цепочки. Понятно, что число вариантов цепочек даже для небольшого текста становится слишком большим. Чтобы снизить число вариантов, в процессе обработки текста для каждой начатой цепочки оценивается ее сила, и в тот момент, когда количество вариантов превышает некоторый порог, удаляются наиболее слабые варианты цепочек. Вес лексической цепочки определяется числом элементов цепочки и весом отношений между ее элементами. Для повторов и синонимов установлен вес 10, для антонимов 7, для гиперонимов и холонимов 4. По завершении обработки текста наилучшая цепочка определяется как имеющая наибольшее число ребер графа цепочки (отношений между элементами цепочки). В работе было проведено исследование, на основе каких параметров выделенных лексических цепочек можно отделить более сильные лексические цепочки, т. е. лучше отражающие основное содержание текста. Исследовались такие параметры, как: длина цепочки, - распределение слов цепочки в тексте, плотность цепочки, топология графа, число повторов слов в цепочках. Было выявлено, что наилучшими показателями силы цепочки являются такие показатели, как длина цепочки Length, равная числу словоупотреблений в цепочке, и индекс гомогенности Homogeneity Index, вычисляемый следующим образом: Homogeneity Index =1-(число разных слов в цепочке)/Length. Авторы работы, поэкспериментировав с разными формулами вычисления силы цепочки, остановились на следующей формуле: Score (Chain) = Homogeneity Index*Length. Таким образом, вес цепочки фактически равен числу повторных употреблений слов в этой цепочке и тем самым имеет прямую аналогию с частотой употребления слова в тексте. Снижение веса для цепочек со слишком разнообразным составом, видимо, сокращает количество ошибок формирования лексических цепочек. Для получения статуса сильной цепочки, которая будет использоваться в дальнейшем анализе, необходимо, чтобы для веса цепочки выполнялось следующее соотношение: Score (Chain) > Average (Scores) +2*StandardDeviation(Scores). Попытка тестирования качества таких лексических цепочек была выполнена в работе (Silber, McCoy, 2002). Предлагаемый метод тестирования основан на использовании аннотаций, созданных людьми. Предполагается, что если лексические цепочки являются хорошим промежуточным представлением для отражения содержания документа, то можно ожидать, что существительные в таких аннотациях используются в том же самом смысле, что и существительные, сгруппированные в сильные лексические цепочки. Более того, сильные цепочки должны быть достаточно хорошо представлены в ручных аннотациях. Для оценки использовался корпус из 10 научных статей, которые снабжены авторской аннотацией, и 14 глав из 10 университетских учебников, для которых также имеются аннотации. Для каждого документа в корпусе, документ и его аннотация анализировались отдельно, и для каждого из них были построены лексические цепочки. Синсеты (значения) существительных в каждой из цепочек в документе и аннотации были сопоставлены между собой. Были вычислены следующие метрики: - число и процент сильных цепочек из оригинального текста, представленных в аннотации, т. е. процент слов из сильных цепочек, представленных в аннотации в том же смысле, что и в сильной цепочке документа (аналогично полноте), - число и процент сильных цепочек из аннотации, представленных в документе (аналогично точности). Авторы получили следующие результаты: -79.12% существительных из сильных цепочек в документе содержатся в аннотации, - 80.83% существительных из сильных цепочек аннотации содержатся в документе.
|