Войти



Последние материалы

Золотые партнеры:

Покупайте АВБбШв у нас: авббшв. Кабель со склада в Москве.

Серебряные партнеры:

Срочный подбор персонала в Москве: аутплейсмент.

Бронзовые партнеры:

ТЕЗАУРУС АНГЛИЙСКОГО ЯЗЫКА WordNet
Статьи
Автор: Лукашевич Н.В.   
04.10.2011 06:15

ТЕЗАУРУС АНГЛИЙСКОГО ЯЗЫКА WordNet

Одним из наиболее известных лексических ресурсов в сфере компьютерной лингвистики и автоматической обработки текстов является компьютерный тезаурус WordNet. Большое количество экспериментов выполнено с этим тезаурусом и в рамках различных приложений информационного поиска.

WordNet 3.0 включает приблизительно 155 000 различных лексем и словосочетаний, которые организованы в 117 000 понятий, или совокупностей синонимов (synset), общее число пар лексема-значение составляет более 200 000.

Разработка тезауруса была начата в 1984 году в Принстонском университете США, руководителем стал известный психолингвист Джордж Миллер. В 1995 году WordNet появился в свободном доступе в сети  Интернет, что вызвало всплеск исследований по его использованию в разных компьютерных приложениях по автоматической обработке текстов. Результаты применения тезауруса WordNet в автоматической обработке текстов оказались не совсем однозначно положительными, но, тем не менее, WordNet открыл новую эпоху разработки сверхбольших структурированных лингвистических тезаурусов, вызвал появление огромного числа последователей в различных странах, создающих такие WordNetы для своих языков, а также стал основой для многоплановых дискуссий и исследований того, на базе каких принципов должны создаваться большие лингвистические тезаурусы, пригодные для разнообразных приложений в области компьютерной лингвистики и информационного поиска.

Изначально WordNet появился как модель человеческой памяти. Большое число решений по представлению описаний слов в тезаурусе WordNet мотивируются психолингвистическими экспериментами. Тем не менее, по мнению авторов ресурса, тезаурус WordNet вызвал гораздо больший интерес у компьютерных лингвистов, чем у психолингвистов (Fellbaum, 1998; Поляков, 2002).

Далее мы рассмотрим основные принципы создания тезауруса WordNet, способы представления лексической информации, а также основные направления критики, которым подвергался данный ресурс. Все это является важным для последующего обсуждения результатов использования WordNet в приложениях информационного поиска.