Войти



Последние материалы

Золотые партнеры:

Серебряные партнеры:

Бронзовые партнеры:

Построение лексических цепочек с учетом ситуативных отношений
Статьи
Автор: Лукашевич Н.В.   
06.01.2012 19:39

Построение лексических цепочек с учетом ситуативных отношений

Стандартным базовым ресурсом для построения лексических цепочек является тезаурус WordNet. Однако набор отношений в этом тезаурусе невелик. Многие авторы, занимавшиеся автоматическим построением лексических цепочек, указывали на одну из проблем построения лексических цепочек по WordNet - нехватку ситуативных отношений. Но появление такого рода отношений в ресурсе (в тезаурусе РуТез такие отношения есть) опять ставит вопрос о критериях выделения цепочек.

Рассмотрим следующий текст на медицинскую тему:

Канадские врачи убили пациента передозировкой наркотика В Канаде начато расследование несчастного случая в больнице города Ред Дир, где медики по ошибке ввели пациенту смертельную дозу опиоидного наркотика, сообщает газета The Globe and Mail. 69-летний пациент поступил в приемное отделение больницы после травмы грудной клетки, которую он получил во время конной прогулки. Врач назначил ему 10 миллиграммов морфина в качестве обезболивающего и отпустил домой.

По ошибке медсестры пациенту был сделан укол гидроморфона -похожего на морфин по названию и действию. Однако этот препарат гораздо сильнее - доза в 10 миллиграммов смертельна. Свою ошибку медики осознали после пересчета наркотических средств и сразу позвонили родственникам мужчины. Однако состояние пациента быстро ухудшилось, и он умер после возвращения в больницу.

Расследование этого случая завершится в течение 10 дней. Как сообщают в больнице, укол сделала опытная медсестра,  которая полностью признает свою ошибку. Однако есть вероятность, что после расследования ее все же признают невиновной. По заявлению министра здравоохранения провинции Альберта, главное - сделать, чтобы такая ошибка не повторилась, (источник: Mednovosti.ru)

В тексте содержится множество слов и словосочетаний, имеющих отношение к медицине: наркотики, больница, пациент, травма, морфин, обезболивающее, гидроморфон, медик, врач и др. По тезаурусу РуТез многие из этих терминов достаточно тесно связаны между собой, и возникает вопрос, должны ли все эти слова собраться в одну лексическую цепочку или в несколько. Если разбивать на несколько цепочек, то нужно понять, какие формальные критерии должны быть применены.

Следствием более богатой системы отношений в тезаурусном ресурсе является и то, что одно и то же слово может быть отнесено к разным лексическим цепочкам, хотя, как указывалось ранее, основополагающим принципом подавляющего большинства подходов, в которых изучается автоматическое построение лексических цепочек, является отнесение очередного слова только к одной цепочке. Рассмотрим следующий фрагмент текста:

Президент Украины Виктор Ющенко готовит указ о переносе парламентских выборов. Теперь, предположительно, они пройдут в июне.

Первоначально Ющенко назначил их на 27 мая. Депутаты отреагировали на это решение обращением в Конституционный суд. Тот обещал спешно рассмотреть вопрос, но до сих пор так и не начал слушания. После подписания нового указа, суд не сможет начать дело, пока 45 депутатов не пришлют ему новое обращение. Так Ющенко затягивает решение главного украинского вопроса: имел ли право глава государства распустить Верховную раду.

По мнению парламента, который Ющенко рассчитывает переизбрать, президент не уверен в своей правоте. Потому и начал сложную игру. Политические страсти, утихшие на Украине во время Пасхи, разгорелись с новой силой. (Источник: Российская газета)

Очевидно, что словосочетание Верховная рада должно быть в равной степени отнесено к двум лексическим цепочкам - цепочке парламента {парламентских выборов, депутаты, депутатов, Верховную Раду, парламента) и цепочке Украины (президент Украины, украинского, Верховную Раду, Украине).

То, что в реальной ситуации одно и то же слово может быть отнесено к разным цепочкам одновременно, значительно усложняет алгоритмы автоматического построения лексических цепочек. Мы нашли только одну работу (Hollingsworth, Teufel, 2005), в которой авторы указывают на то, что их алгоритм построения лексических цепочек позволяет относить одно и то же слово или словосочетание к разным лексическим цепочкам, и при этом они указывают на проблему порождения слишком большого количества лишних лексических цепочек (overgeneration). При этом авторы статьи (Hollingsworth, Teufel, 2005) подчеркивают, что в проведенном ими эксперименте все эксперты-аннотаторы по крайней мере одно слово (словосочетание) отнесли более чем к одной лексической цепочке.