Войти



Советуем прочесть

Последние материалы

Золотые партнеры:

Серебряные партнеры:

Бронзовые партнеры:

Принципы отбора словосочетаний для включения
Статьи
Автор: Лукашевич Н.В.   
12.11.2011 18:45

Спонсор статьи: Компания "Эталон" осуществляет качественное Продвижение сайта в Туле по самым разумным ценам


Принципы отбора словосочетаний для включения

в словари систем автоматической обработки текстов

В работах (Bentivogli, Pianta, 2004; Calzolari и др., 2002; Реагсе, 2001) обсуждается совокупность принципов, которые могут служить (в сочетании) основанием для внесения словосочетания в компьютерный словарь:

-        высокая частотность,

-        высокая степень ассоциации, т. е. более частое употребление друг с другом, чем с другими словами,

-        синонимичность лексической единице (например отдельному слову),

-        значительная многозначность компонентов,

-        словосочетание обозначает тип объекта, например: телефонная будка, письменный стол. Именно типы объектов обладают набором разных свойств, многие из которых могут быть использованы для называния этого типа, в результате чего возникают интересные синонимы, интересные переводы на другой язык (см. предыдущий раздел).

В работе (Реагсе, 2001) для извлечения устойчивых словосочетаний предлагается использовать синонимы, описанные в тезаурусе WordNet. Поскольку одним из частых свойств семантически связанных словосочетаний является ограничение на замену одного из слов словосочетания синонимом, то предлагается исследовать сочетания синонимов с одними и теми же словами по корпусу, затем перепроверять в Интернет. Если разница частотностей таких словосочетаний значительна, то можно предлагать частотное словосочетание как устойчивое. Например, сравнивая употребление слов-синонимов baggage и luggage в сочетаниях с различными словами, можно обнаружить, что только baggage употребляется с таким прилагательным, как emotional. Таким образом, можно предположить, что словосочетание emotional baggage является устойчивым.

Как указывалось в «Критерии ввода многословных дескрипторов.», разработчики информационно-поисковых тезаурусов традиционно уделяют особое внимание отбору многословных терминов для включения в тезаурусы, используя для этого совокупность правил.

Таким образом, мы видим, что различные авторы предлагают различные критерии и соображения для включения многословных конструкций в словари компьютерных систем, что значительно затрудняет принятие решения в конкретных случаях.