| Принципы отбора словосочетаний для включения |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 12.11.2011 18:45 | |||
|
Спонсор статьи: Компания "Эталон" осуществляет качественное Продвижение сайта в Туле по самым разумным ценам Принципы отбора словосочетаний для включенияв словари систем автоматической обработки текстов В работах (Bentivogli, Pianta, 2004; Calzolari и др., 2002; Реагсе, 2001) обсуждается совокупность принципов, которые могут служить (в сочетании) основанием для внесения словосочетания в компьютерный словарь: - высокая частотность, - высокая степень ассоциации, т. е. более частое употребление друг с другом, чем с другими словами, - синонимичность лексической единице (например отдельному слову), - значительная многозначность компонентов, - словосочетание обозначает тип объекта, например: телефонная будка, письменный стол. Именно типы объектов обладают набором разных свойств, многие из которых могут быть использованы для называния этого типа, в результате чего возникают интересные синонимы, интересные переводы на другой язык (см. предыдущий раздел). В работе (Реагсе, 2001) для извлечения устойчивых словосочетаний предлагается использовать синонимы, описанные в тезаурусе WordNet. Поскольку одним из частых свойств семантически связанных словосочетаний является ограничение на замену одного из слов словосочетания синонимом, то предлагается исследовать сочетания синонимов с одними и теми же словами по корпусу, затем перепроверять в Интернет. Если разница частотностей таких словосочетаний значительна, то можно предлагать частотное словосочетание как устойчивое. Например, сравнивая употребление слов-синонимов baggage и luggage в сочетаниях с различными словами, можно обнаружить, что только baggage употребляется с таким прилагательным, как emotional. Таким образом, можно предположить, что словосочетание emotional baggage является устойчивым. Как указывалось в «Критерии ввода многословных дескрипторов.», разработчики информационно-поисковых тезаурусов традиционно уделяют особое внимание отбору многословных терминов для включения в тезаурусы, используя для этого совокупность правил. Таким образом, мы видим, что различные авторы предлагают различные критерии и соображения для включения многословных конструкций в словари компьютерных систем, что значительно затрудняет принятие решения в конкретных случаях.
|