| Построение лексических цепочек с учетом ситуативных отношений |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 06.01.2012 19:39 | |||
Построение лексических цепочек с учетом ситуативных отношенийСтандартным базовым ресурсом для построения лексических цепочек является тезаурус WordNet. Однако набор отношений в этом тезаурусе невелик. Многие авторы, занимавшиеся автоматическим построением лексических цепочек, указывали на одну из проблем построения лексических цепочек по WordNet - нехватку ситуативных отношений. Но появление такого рода отношений в ресурсе (в тезаурусе РуТез такие отношения есть) опять ставит вопрос о критериях выделения цепочек. Рассмотрим следующий текст на медицинскую тему: Канадские врачи убили пациента передозировкой наркотика В Канаде начато расследование несчастного случая в больнице города Ред Дир, где медики по ошибке ввели пациенту смертельную дозу опиоидного наркотика, сообщает газета The Globe and Mail. 69-летний пациент поступил в приемное отделение больницы после травмы грудной клетки, которую он получил во время конной прогулки. Врач назначил ему 10 миллиграммов морфина в качестве обезболивающего и отпустил домой. По ошибке медсестры пациенту был сделан укол гидроморфона -похожего на морфин по названию и действию. Однако этот препарат гораздо сильнее - доза в 10 миллиграммов смертельна. Свою ошибку медики осознали после пересчета наркотических средств и сразу позвонили родственникам мужчины. Однако состояние пациента быстро ухудшилось, и он умер после возвращения в больницу. Расследование этого случая завершится в течение 10 дней. Как сообщают в больнице, укол сделала опытная медсестра, которая полностью признает свою ошибку. Однако есть вероятность, что после расследования ее все же признают невиновной. По заявлению министра здравоохранения провинции Альберта, главное - сделать, чтобы такая ошибка не повторилась, (источник: Mednovosti.ru) В тексте содержится множество слов и словосочетаний, имеющих отношение к медицине: наркотики, больница, пациент, травма, морфин, обезболивающее, гидроморфон, медик, врач и др. По тезаурусу РуТез многие из этих терминов достаточно тесно связаны между собой, и возникает вопрос, должны ли все эти слова собраться в одну лексическую цепочку или в несколько. Если разбивать на несколько цепочек, то нужно понять, какие формальные критерии должны быть применены. Следствием более богатой системы отношений в тезаурусном ресурсе является и то, что одно и то же слово может быть отнесено к разным лексическим цепочкам, хотя, как указывалось ранее, основополагающим принципом подавляющего большинства подходов, в которых изучается автоматическое построение лексических цепочек, является отнесение очередного слова только к одной цепочке. Рассмотрим следующий фрагмент текста: Президент Украины Виктор Ющенко готовит указ о переносе парламентских выборов. Теперь, предположительно, они пройдут в июне. Первоначально Ющенко назначил их на 27 мая. Депутаты отреагировали на это решение обращением в Конституционный суд. Тот обещал спешно рассмотреть вопрос, но до сих пор так и не начал слушания. После подписания нового указа, суд не сможет начать дело, пока 45 депутатов не пришлют ему новое обращение. Так Ющенко затягивает решение главного украинского вопроса: имел ли право глава государства распустить Верховную раду. По мнению парламента, который Ющенко рассчитывает переизбрать, президент не уверен в своей правоте. Потому и начал сложную игру. Политические страсти, утихшие на Украине во время Пасхи, разгорелись с новой силой. (Источник: Российская газета) Очевидно, что словосочетание Верховная рада должно быть в равной степени отнесено к двум лексическим цепочкам - цепочке парламента {парламентских выборов, депутаты, депутатов, Верховную Раду, парламента) и цепочке Украины (президент Украины, украинского, Верховную Раду, Украине). То, что в реальной ситуации одно и то же слово может быть отнесено к разным цепочкам одновременно, значительно усложняет алгоритмы автоматического построения лексических цепочек. Мы нашли только одну работу (Hollingsworth, Teufel, 2005), в которой авторы указывают на то, что их алгоритм построения лексических цепочек позволяет относить одно и то же слово или словосочетание к разным лексическим цепочкам, и при этом они указывают на проблему порождения слишком большого количества лишних лексических цепочек (overgeneration). При этом авторы статьи (Hollingsworth, Teufel, 2005) подчеркивают, что в проведенном ими эксперименте все эксперты-аннотаторы по крайней мере одно слово (словосочетание) отнесли более чем к одной лексической цепочке. Tags: Построение лексических цепочек с учетом ситуативных отношений Тезаурус и построение тематического представления текста
|