| Субъективность выделения лексических цепочек |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 06.01.2012 19:33 | |||
Субъективность выделения лексических цепочекАвторы работы (Hirst, Morris, 2003) указывают на субъективность рассмотрения лексической связности в тексте. Они рассматривают пример небольшого текста: (*) How can we figure out what a text means. One could argue that the meaning is in the mind of the reader, but some people think that the meaning lies within the text itself. Отвечая на вопрос, каковы лексические цепочки, которые можно выделить в данном тексте, один автор статьи полагает, что видит две цепочки: цепочку «понимание», которая включают такие слова, как figure out, means, meaning, mind, think, meaning, и цепочку «текст», включающуюя слова text, reader, text. Второй автор также выделил две цепочки, но соотнес слова means, meaning с цепочкой «текст». Действительно, при построении лексических цепочек текста (*) слова значение, значить близки по смыслу как лексеме текст, так и лексемам думать, узнать. Можно ли определить, кто из авторов статьи прав, или, может быть, слова значение и значить входят в две лексические цепочки? Также в (Hirst, Morris, 2003) описывается следующий эксперимент по изучению согласия между читателями по выявлению лексической связности текста. Пять участников эксперимента читают полуторастраничный текст из Reader's digest на тему роли киноактеров и киноперсонажей в формировании неправильных моделей ролевого поведения у детей. Участники сначала должны прочитать статью и отметить каждую связанную по смыслу группу слов разным цветом. Затем каждая выделенная группа должна быть перенесена на новый лист, и в группе близких слов нужно выделять пары слов и устанавливать между ними тип отношения. Эти данные стали основой для оценки соответствия между восприятием текста каждым участником. Для каждой пары участников было вычислен коэффициент согласия, который определялся как процент слов, которые встретились в рассмотрении обоих участников, по отношению к общему числу слов, которые они использовали. В среднем для лексически связанных слов этот коэффициент составил 63%. В работе (Hollingsworth, Teufel, 2005) описывается эксперимент по сравнению лексических цепочек, создаваемых разными людьми, на примере научной статьи Lee Lilian «Measures of distributional similarity», опубликованной в трудах 37 конференции ACL (pp. 25-32). В эксперименте участвовали 3 человека, которым было дано неограниченное время, чтобы создать наборы терминов, которые им кажутся близкими по смыслу в контексте исследуемой статьи. Участникам были даны следующие инструкции: - термин может состоять из одного слова или комбинации слов, взятых непосредственно из текста; - слова, используемые в терминах, могут быть существительными, прилагательными или наречиями; - возможные отношения между словами в цепочке близких слов могут быть следующими: разные формы одного и того же слова, синонимия, гиперонимия/гипонимия, меронимия или холонимия; - не накладывались ограничения на размер или количество лексических цепочек. Каждому аннотатору были даны список всех слов статьи, упорядоченные по мере частотности, и максимальные именные группы, извлеченные из текста. Использование этих материалов носило вспомогательный характер. В статье (Hollingsworth, Teufel, 2005) приводятся лексические цепочки, полученные двумя аннотаторами. В каждой цепочке выделен наиболее частотный элемент, который является как бы представителем цепочки. Один аннотатор создал 12 лексических цепочек, второй аннотатор создал 22 лексические цепочки, причем имеется совпадение главных элементов цепочек только в четырех случаях (с точностью до единственного/множественного числа): similarity, probability, cooccurrance, distribution. Таким образом, в экспериментах были выявлены значительные расхождения в формировании лексических цепочек людьми, и возникает вопрос, является ли эта ситуация стандартным проявлением субъективности человеческих решений, или при рассмотрении лексических цепочек не учитываются какие-то дополнительные факторы. Tags: Субъективность выделения лексических цепочек Тезаурус и построение тематического представления текста
|