Войти



Последние материалы

Золотые партнеры:

Керамический гранит 137 р! Акция: итальянский керамогранит.

Бронзовые партнеры:

Компьютерный тезаурус русского языка RussNet
Статьи
Автор: Лукашевич Н.В.   
04.10.2011 10:02

Компьютерный тезаурус русского языка RussNet

Компьютерный тезаурус RussNet, который разрабатывается на кафедре математической лингвистики Санкт-Петербургского государственного университета, строится на основании принципов, общих для wordnet-словарей (Fellbaum, 1997). Словарь RussNet является оригинальным ресурсом (Азарова и др., 2003) в том смысле, что он не переводится с Принстонского WordNet, а создается как отдельный ресурс.

В методологическом плане стандартная процедура построения RussNet включает следующие положения, см. (Азарова и др., 2005):

1)      словарь опирается на корпус современных текстов 1985-2004 гг. общим объемом около 21 млн словоупотреблений, основу которого составляют газетные и журнальные статьи на темы повседневной жизни, экономики, политики, науки, культуры и спорта;

2)      ядерная структура тезауруса задается примерно двумя тысячами наиболее частотных слов (существительных, глаголов, прилагательных, наречий), которые встречаются более 100 раз на миллион словоупотреблений в корпусе современных текстов;

3)      разные значения некоторого слова, представленные в тезаурусе, упорядочены в соответствии с частотностью их употребления в корпусе текстов;

4)      в RussNet представлена, как правило, общая, нетерминологическая лексика, хотя предполагается, что расширения базовой структуры будут включать терминологические элементы, которые тесно связаны с определенными тематическими областями;

5)      синсеты национального тезауруса соотносятся с Межъязыковым лингвистическим индексом (ILI), предложенным в рамках проекта EuroWordNet.

В структуру RussNet были внесены следующие нововведения по сравнению с другими ворднетами:

1)      среди синонимов синсета выделяется доминантный синоним, представляющий собой наиболее нейтральный и частотный способ выражения соответствующего лексического значения;

2)      основным инструментом при разграничении значений слова является контекстный анализ. При принятии решений о том, сколько и какие значения должны быть описаны у многозначного слова, выделяются статистически значимые маркеры, в качестве которых может выступать и определенная грамматическая форма, и принадлежность к некоторому семантическому дереву родовидовой иерархии RussNet, или оба этих показателя вместе. Эти признаки должны проявляться устойчиво: более чем в 33% контекстов для рассматриваемого значения в корпусе;

3)      значения слов, частотность появления которых в корпусе составляет менее 1% контекстов для слова, считаются неустойчивыми и не включаются в тезаурусное описание.

Для задания частотного упорядочения значений многозначного слова используется разметка выборочной совокупности контекстов корпуса. Эта процедура производится вручную, что приводит к большим затратам времени.

В проекте уделяется отдельное внимание вопросу включения в RussNet словосочетаний. Создатели ресурса считают, что хотя при включении в толковые словари словосочетаний обычно во внимание принимается несколько критериев (лексическая ограниченность, воспроизводимость некоторой конструкции в неизменном виде и др.), граница между свободными и устойчивыми словосочетаниями устанавливается довольно субъективно (Азарова и др., 2005). При разработке RussNet разработчики опираются, прежде всего, на данные, полученные при статистической обработке корпуса текстов. Используется несколько показателей, таких как абсолютная частота сочетания слов, относительная частота сочетания слов (в частности, используются коэффициенты типа тест Стьюдента и MI-коэффициент (коэффициент взаимной информации)) на основе меняющегося контекстного диапазона - «окна» (Manning, Shutze, 1999).